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郑 忠 国 ”北京 大 学 数学 科学 学 院 教授 、 博 士 生 导 师 , 1965 年 北京 大 学 研究 生 毕 业 . 
长 期 从 事 数理 统计 的 教学 和 科研 工作 , 研究 方向 是 非 参数 统计 、 可 靠 性 统计 和 统计 
计算 , 发 表 论文 近 百 篇 . 主持 完成 国家 科研 项 目 “ 不 完全 数据 统计 理论 及 其 应 用 ”， 
教育 部 博士 点 基金 项 目 “ 应 用 统计 方法 研究 ”和 “工业 与 医学 中 的 应 用 统计 研究 ” 
等 . 研究 项 目 “ 随 机 加 权 法 ” 获 国 家 教委 科技 进步 二 等 奖 . 出 版 的 教材 有 《高 等 统 
计 学 》《 概 率 与 统计 》( 北 京 大 学 出 版 社 ) 等 . 


童 行 伟 ”北京 师范 大 学 数学 科学 学 院 副教授 、 硕士 生 导 师 , 2003 年 获得 北京 大 学 数 
学 科学 学 院 博士 学 位 . 曾 在 密苏里 大 学 哥伦比亚 分 校 做 博士 后 研究 , 多 次 访问 香港 
各 大 学 和 新 加 坡 国 立 大 学 . 主要 从 事 生 物 统计 、 金 融 统计 的 教学 和 科研 工作 , 研究 
方向 是 生存 分 析 和 医学 统计 . 


译 者 序 


概率 论 是 研究 自然 界 和 人 类 社会 中 的 随机 现象 数量 规律 的 数学 分 支 ， 概 率 论 
的 理论 和 方法 与 数学 的 其 他 分 支 、 自 然 科 学 、 工 程 、 人 文 及 社会 科学 各 领域 相互 交 
又 渗透 ,已 经 成 为 这 些 学 科 中 的 基本 方法 . 概率 论 (或 概率 统计 ) 和 高 等 数学 一 样 ， 
已 经 成 为 我 国 高 等 学 校 各 专业 普遍 设立 的 一 门 基础 课 . 

Dimitri P. Bertsekas 和 John N. Tsitsiklis 编写 的 这 本 《概率 导论 》 独 具 特 色 . 
作者 用 流畅 的 笔调 , 阐述 了 概率 论 的 基本 原理 和 方法 , 同时 用 大 量 丰 富 的 例子 说 明 
概率 论 的 应 用 领域 的 广泛 性 . 本 书 在 内 容 上 具有 一 些 鲜明 的 特点 . 首先 教材 的 内 容 
丰富 ， 除了 系统 地 介绍 概率 论 基本 原理 外 ， 还 包含 了 随机 过 程 和 统计 学 的 内 容 . 随 
机 过 程 部 分 涉及 伯 努 利和 泊 松 过 程 、 马 尔 可 夫 过 程 等 内 容 , 统计 学 涉及 贝 叶 斯 统计 
和 经 典 统 计 的 主要 方法 . 本 书 的 内 容 可 以 提供 两 门 具有 不 同 特点 的 一 学 期 课程 的 
材料 , 一 门 是 概率 论 与 随机 过 程 , 另 一 门 是 概率 论 与 统计 推断 . 任课 教员 可 以 从 本 
书 选取 相关 内 容 组 成 相应 课程 ， 本 书 的 另 一 个 特点 是 它 的 广泛 适应 性 和 理论 的 完 
整 性 . 初学 者 通过 系统 学 习 , 可 以 掌握 概率 论 和 统计 学 的 基本 原理 ; 追求 数学 严密 
性 的 学 生 , 也 可 从 本 书 的 注解 和 习题 解答 中 学 习 到 概率 统计 的 严格 理论 了 解 理论 
的 完整 性 和 逻辑 的 严密 性 . 

译 者 曾 与 本 书 第 一 作者 有 过 当面 交流 的 机 会 . 作者 对 于 中 国 不 断 发展 的 教育 
科学 事业 很 感 兴趣 , 乐于 看 到 概率 统计 在 中 国教 育 领域 中 的 地 位 日 益 提 高 , 乐于 将 
本 书 介绍 给 中 国 读者 . 本 书 是 麻 省 理工 学 院 的 基础 课 教材 , 是 在 多 年 教学 的 基础 上 
写成 的 . 作为 世界 著名 高 校 , 他 们 的 经 验 值得 我 们 学 习 , 我 们 希望 本 教材 的 中 文 版 
能 够 对 提高 我 国 概率 统计 教育 水 平 起 到 积极 的 作用 . 

由 于 译 者 的 学 识 和 中 英文 水 平 有 限 , 译文 难免 有 不 妥 之 处 , 欢迎 广大 读者 批评 
指正 . 


第 2 版 前 言 


本 书 对 第 1 版 进行 了 重大 改动 : 对 原 有 材料 的 编排 做 了 变动 , 增加 了 新 的 材料 ， 
页 数 也 增加 了 25 %. 主要 的 改动 如 下 . 

(a) 统计 推断 方面 增加 了 两 章 内 容 : 一 章 是 贝 叶 斯 统计 ; 一 章 是 古典 统计 推断 . 
这 两 章 的 主要 内 容 是 介绍 基本 概念 , 并 通过 例子 加 深 对 方法 的 理解 . 

(b) 重新 安排 组 织 了 第 3、 第 4 两 章 的 内 容 , 一 方面 是 为 了 增加 新 的 内 容 , 另 一 
方面 是 为 了 表达 的 流畅 . 第 1 版 中 的 4.7 节 (二 元 正 态 分 布 ) 已 经 删 去 , 但 是 在 本 书 
的 网 页 上 还 保留 着 . 

(c) 增加 了 一 些 例子 和 习题 . 

新 版 的 主要 目的 是 为 教师 提供 更 多 的 材料 以 供 他 们 选材 , 特别 是 提供 了 统计 推 
断 引 论 的 题材 . 注意 本 书 第 6~7 章 和 第 8~9 章 在 内 容 上 是 相互 独立 的 , 另外 , 第 
5~7 章 的 内 容 是 不 依赖 第 4 章 的 , 第 8~9 章 只 需要 知道 4.2~4.3 节 的 内 容 . 因此 ， 
利用 本 书 , 可 以 提供 下 列 的 课程 . 

(a) 概率 论 与 统计 推断 引 论 : 第 1~3 章 , 4.2~4.3 节 , 第 5 章 , 第 8~9 章 . 

(b) 概率 论 与 随机 过 程 引 论 : 第 1~3 章 , 第 5~7 章 , 加 上 第 4 章 少数 几 节 . 

我 们 要 对 我 们 的 同行 表示 感谢 . 他 们 对 第 1 版 的 内 容 提出 了 宝贵 的 建议 , 同时 
对 新 增 材料 的 组 织 提供 了 帮助 . 特别 是 Ed Coffman, Munther Dahleh, Vivek Goyal， 
Anant Sahai, David Tse, George Verghese, Alan Willsky, John Wyatt 等 . 最 后 , 我 
们 要 感谢 Mengdi Wang, 她 为 新 增 的 两 章 提供 了 习题 和 图 表 . 


Dimitri P. Bertsekas, Dimitrib@mit.edu 
John N. Tsitsiklis, jnt@mit.edu 
2008 年 6 月 于 麻 省 剑桥 
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概率 是 用 计算 概括 的 常识 


本 书 是 我 们 在 MIT 开设 的 一 门 概率 论 入 门 课程 “概率 系统 分 析 ” 的 基础 上 写 
成 的 . 

选择 这 门 课程 的 学 生来 自 全 校 各 个 科 系 , 他 们 背景 各 异 , 且 兴 趣 广泛 . 既 有 刚 
入 学 的 本 科 一 年 级 新 生 也 有 研究 生 , 既 有 学 工科 的 也 有 学 管理 的 . 为 此 , 在 教学 上 
我 们 一 直 力 求 表达 简洁 而 又 不 失 分 析 推 理 的 严格 . 我 们 教学 的 主要 目的 是 培养 学 生 
构造 和 分 析 概 率 模型 的 能 力 , 希望 学 生 既 具备 直观 理解 力 又 注重 数学 的 准确 性 . 

根据 这 种 精神 , 概率 论 模型 中 某 些 很 严格 的 数学 推导 被 简化 处 理 了 , 或 者 只 是 
进行 了 直观 的 解释 , 免得 复杂 的 证 明 妨 碍 了 学 生 对 概率 论 本 质 的 理解 . 同时 , 有 些 
分 析 留 在 每 章 最 后 的 理论 习题 部 分 , 它们 用 到 高 等 微 积分 知识 . 此 外 , 为 了 满足 某 
些 专业 读者 的 需要 , 我 们 将 某 些 推理 过 程 中 的 数学 技巧 展示 在 注解 中 . 

本 书包 含 了 概率 论 的 基础 理论 部 分 (概率 模型 、 离 散 随机 变量 和 连续 随机 变 
量 、 多 元 随机 变量 以 及 极限 定理 ), 这 些 都 是 概率 论 入 门 教材 的 主要 内 容 . 在 第 4~6 
章 , 也 包含 了 一 些 较 高 级 的 内 容 , 教师 在 讲授 的 过 程 中 可 以 选择 部 分 内 容 , 以 配合 
课程 大 纲 的 具体 需求 . 其 中 第 4 章 介 绍 了 气 母 函数 、 条 件 概率 的 现代 定义 、 独 立 随 
机 变量 的 和 、 最 小 二 乘 估计 、 二 维 正 态 分 布 等 内 容 ; 第 5~6 章 较为 详细 地 介绍 了 伯 
努 利 、 泊 松 和 马尔 可 夫 过 程 . 

我 们 在 MIT 开设 的 (一 学 期 ) 课程 中 , 讲授 了 第 1~7 章 的 几乎 全 部 内 容 , 只 是 
略 去 了 二 维 正 态 分 布 (4.7 节 ) 和 连续 时 间 马 尔 可 夫 链 (6.5 节 ) 两 部 分 . 然而 , 也 可 
以 作 如 下 选择 : 略 去 课本 中 关于 随机 过 程 的 全 部 内 容 , 这 样 可 使 任课 教师 集中 精力 
介绍 概率 论 的 基本 概念 , 或 者 增加 一 些 感 兴趣 的 其 他 材料 . 

本 书 的 主要 省 略 之 处 是 缺乏 对 统计 学 的 全 面 介 绍 . 我 们 引入 了 离散 和 连续 情 
形 下 的 贝 叶 斯 准则 和 最 小 二 乘 估计 , 引入 贝 叶 斯 统计 理论 , 但 并 不 涉及 参数 估计 和 
非 贝 叶 斯 假设 检验 . 

本 书 的 习题 可 以 分 成 三 类 . 

(a) 理 论 习题 : 理论 习题 (用 * 标明 ) 是 教材 的 重要 组 成 部 分 . 具有 数学 背景 的 
学 生 会 发 现 这 部 分 内 容 是 由 课文 自然 拓展 而 来 . 我 们 同时 给 出 了 这 部 分 习题 的 解 
答 . 但 是 , 善于 思考 的 读者 会 发 现 大 部 分 (特别 是 前 几 章 的 ) 习题 都 能 自己 独立 地 做 
出 来 . 
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(b) 课程 习题 : 除 理论 习题 外 , 书 中 还 包含 了 难度 各 异 的 其 他 习题 . 这 些 习题 是 
在 MIT 的 讨论 班 上 经 常 研 究 的 题目 , 也 是 MIT 的 学 生 学 习 概 率 论 的 主要 方法 之 
一 . 我 们 希望 学 生 首 先 独 立地 做 习题 , 然后 参考 标准 答案 进行 核对 , 这 样 可 以 提高 他 
们 的 学 习 能 力 . 答案 公布 在 教材 的 网 页 上 : http://www.athenasc.com/probbook. 
html. 

(c) 补充 习题 : 有 很 多 补充 习题 并 没有 印 在 书 上 , 但 是 在 本 书 的 网 页 上 可 以 查 
到 ( 且 越 来 越 多 ). 其 中 许多 习题 是 MIT 学 生 的 家 庭 作业 和 考试 题目 . 我 们 希望 采 
用 本 教材 的 教师 可 以 同样 地 利用 它们 . 这 些 题目 放 在 网 上 是 公开 的 , 但 是 题目 的 答 
案 是 不 公开 的 . 采用 本 教材 的 教师 可 以 联系 作者 得 到 这 些 答案 . 

我 们 要 感谢 许多 为 本 书 作出 贡献 的 人 . 当 我 们 开始 在 MIT 接手 这 门 概率 论 课 
程 的 教学 任务 时 , 就 开始 了 写 书 的 计划 . 我 们 的 同事 Al Drake 教 这 门 课 已 经 几 十 
年 了 . 他 的 课程 组 织 经 历 了 时 间 的 考验 , 其 经 典 教材 对 各 个 题材 均 有 生动 的 描述 ， 
还 有 大 量 讨论 班 内 容 和 家 庭 作业 等 丰富 的 材料 , 我 们 十 分 庆幸 自己 的 工作 有 这 样 高 
的 起 点 . 特别 感谢 Al Drake 给 我 们 创造 了 如 此 有 利 的 起 始 条 件 . 

我 们 也 要 感谢 其 他 院 校 的 几 位 同事 , 他 们 有 的 利用 本 书 的 手稿 进行 教学 , 有 的 
阅读 过 手稿 , 并 对 本 书 的 改进 提供 了 反馈 . 我 们 要 特别 感谢 Ibrahim Abou Faycal， 
Gustavo de Veciana, Eugene Feinberg, Bob Gray, Muriel Médard, Jason Papastavrou, 
Ilya Pollak, David Tse, Terry Wagner 等 . 

还 有 MIT 的 助教 们 , 他 们 对 各 阶段 的 书稿 进行 了 认真 的 校 核 , 并 丰富 和 完善 
了 习题 和 解答 . 通过 他 们 与 学 生 的 直接 交流 , 才 使 得 本 教材 能 够 适应 学 生 的 学 习 水 
平 . 

本 书 能 够 为 MIT 的 数 千 学 生 在 其 学 业 生 涯 之 初 提供 服务 , 使 我 们 感到 十 分 欣 
慰 . 在 本 书 的 成 书 过 程 中 , 他 们 热心 反馈 书本 中 的 问题 和 学 习 心 得 . 我 们 感谢 他 们 
的 反馈 与 耐心 . 

最 后 , 我 们 还 要 感谢 我 们 的 家 人 在 这 个 漫长 的 成 书 过 程 中 对 我 们 的 支持 . 


Dimitri P. Bertsekas, Dimitrip@mit.edu 
John N. Tsitsiklis, jnt@mit.edu 
2002 年 5 月 于 麻 省 剑桥 
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“概率 ”是 一 个 非常 有 用 的 概念 , 它 可 以 从 不 同 的 层面 来 加 以 解释 . 先 看 下 面 
一 幅 对 话 场景. 


一 个 病人 被 送 进 医 院 ， 并 施 以 一 种 急救 的 药 . 病人 家 属 为 了 了 解 药 的 疗效 ， 
询问 了 当班 的 护士 . 下 面 是 他 们 之 冶 的 一 段 对 话 . 

家 属 : 护士 小 姐 , 请 问 这 种 药 有 效 的 概率 是 多 少 ? 

护士 : 我 希望 这 种 药 是 有 效 的 , 明天 就 会 见 分 晓 . 

家 属 : 是 的 , 但 是 我 想 知 道 这 种 药 有 效 的 概率 . 

护士 :每 个 病人 的 病情 是 不 一 样 的 , 看 情况 发 展 吧 . 

家 属 : 这 么 说 吧 , 在 100 宗 类 似 的 病例 中 , 你 认为 有 多 少 宗 是 有 效 的? 

护士 (有 些 不 耐烦 ): 我 已 经 告诉 你 了 , 每 个 病人 的 情况 是 不 一 样 的 ， 这 种 
药 , 对 某 些 病人 是 有 效 的 , 对 另 一 些 病人 是 无 效 的 . 

家 属 (继续 坚持 ): 现在 请 告诉 我 ,如果 必 须 打 赌 的 话 , 你 会 押 哪 一 注 , 这 种 
药 是 有 效 还 是 无 效 ? 

护士 (有 些 惊 奇 ): 那 我 愿意 打赌, 对 于 这 位 病人 , 这 种 药 是 有 效 的 . 

家 属 (多 少 松 了 一 口气 ): 好 吧 ! 我 再 问 你 , 你 是 否 愿意 如 此 押 注 : 若 这 药 无 
效 , 你 输 掉 2 元 钱 , 若 这 药 有 效 , 你 赢 1 元 钱 ? 
护士 (有 些 恼怒 ): 多 么 荒 雇 的 想法 ! 你 是 在 浪费 我 的 时 间 . 


在 这 组 对 话 中 , 病人 家 属 希望 用 概率 的 概念 同 护士 讨论 药 的 疗效 这 种 具有 不 确 
定性 的 事件 . 但 是 护士 的 第 一 反应 是 对 概率 这 个 概念 的 不 认可 , 或 不 理解 , 而 家 属 
试图 将 概率 的 概念 解释 得 更 具体 一 些 . 他 首先 试图 将 概率 解释 成 偶然 事件 在 多 次 
重复 试验 中 出 现 的 频率 , 这 是 最 通常 的 解释 . 例如 , 我 们 说 一 枚 两 面 对 称 的 硬币 , 在 
抛掷 试验 中 以 50% 的 概率 出 现 正面 , 这 么 说 实际 上 是 指 在 多 次 重复 抛掷 硬币 时 , 出 
现 正 面向 上 的 次 数 约 占 一 半 . 但 是 护士 似乎 不 大 愿意 接受 家 属 的 这 种 想法 , 护士 的 
想法 不 是 完全 没有 道理 . 如 果 这 种 药 是 第 一 次 在 医院 里 使 用 , 或 护士 从 没有 过 这 方 
面 的 经 验 , 那 何 从 谈 起 治愈 的 频率 呢 ? 

在 许多 涉及 不 确定 性 的 事例 中 , 用 频率 解释 是 适宜 的 , 然而 , 也 有 一 些 事例 , 不 
宜 用 频率 进行 解释 . 比如 , 有 一 个 学 者 以 90% 的 把 握 断 言 《伊里 亚 特 》 和 《奥德赛 》 
是 由 同一 作者 创作 的 . 由 于 他 所 讨论 的 是 不 可 重复 的 一 次 性 事件 , 这 样 的 结论 只 是 
提供 一 些 主观 看 法 , 而 与 频率 无 关 . 所 谓 概率 为 90% 的 把 握 只 是 学 者 的 主观 信念 . 
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或 许 有 人 认为 主观 信念 是 不 值得 研究 的 , 至 少 从 数学 或 科学 的 观点 来 看 是 如 此 . 但 
是 在 实际 生活 中 , 人 们 面 对 不 确定 性 的 时 候 , 经 常 不 得 不 作出 抉择 . 为 了 作出 正确 
的 或 至 少 保持 一 致 的 抉择 , 科学 和 系统 地 利用 他 们 的 主观 信念 是 一 个 先决 条 件 . 

事实 上 , 一 个 理智 的 选择 和 行动 揭示 了 许多 内 在 的 主观 概率 , 然而 在 许多 场合 
中 , 作出 抉择 的 人 自己 也 没有 意识 到 他 们 应 用 了 概率 推理 .在 前 面 的 对 话 场 景 中 ， 
病人 家 属 以 一 种 隐蔽 的 方式 试图 推断 护士 的 主观 信念 . 由 于 护士 愿意 以 1:1 的 赔 
率 打 赌 这 种 药 是 有 效 的 , 那么 在 护士 的 主观 概念 中 , 这 种 药 有 效 的 概率 至 少 为 50%. 
如 果 这 位 护士 接受 对 话 最 后 提出 的 赔 率 为 2:1 的 赌注 的 话 , 这 说 明 在 护士 的 主观 概 
念 中 , 这 种 药 有 效 的 概率 至 少 为 2/3. 

在 此 我 们 不 去 深究 概率 推理 适用 性 方面 的 哲学 问题 , 而 是 事先 假定 概率 论 在 很 
多 方面 都 具有 实用 价值 , 包括 概率 只 反映 主观 信念 的 情形 ， 概 率 论 在 科学 、 工 程 、 
医药 、 管理 等 领域 中 有 许多 成 功 应 用 的 事例 . 这 许多 经 验证 据说 明 概 率 论 在 应 用 中 
是 一 种 极其 有 用 的 工具 . 

本 书 的 主要 目的 是 发 据 用 概率 模型 描述 不 确定 性 的 艺术 和 提高 概率 推理 的 能 
力 .作为 第 一 步 , 本 章 要 把 概率 模型 的 基础 结构 及 其 基本 性 质 刻画 清楚 . 概率 是 定 
义 在 某 些 试验 结果 的 集合 上 的 . 为 此 , 我 们 首先 应 该 对 集合 论 作 一 简介 . 


1.1 和 集 合 


概率 论 大 量 应 用 集合 运算 . 我 们 首先 引进 相关 的 记号 和 术语 . 

将 一 些 研究 对 象 放 在 一 起 , 形成 集合 , 而 这 些 对 象 就 称 为 集合 的 元 素 . 设 9 是 
一 个 集合 , z 是 5 的 元 素 , 我 们 将 元 素 和 集合 的 这 种 关系 写成 ze Ss. 车 zx 不 是 5 的 
元 素 , 就 写成 zg 5. 一 个 集合 可 以 没有 元 素 , 这 个 特殊 的 集合 就 称 为 空 集 , 记 作 &. 

可 用 不 同 的 方法 刻画 一 个 集合 . 车 5 包含 有 限 个 元 素 zl, zz,… ,z， 我 们 只 需 
将 这 些 元 素 列 在 花 括 弧 中 : 

S = {Zz1,72,. ,Tn}. 
例如 , 拓 一 枚 货 子 以 后 的 所 有 可 能 结果 的 集合 是 {1, 2, 3, 4, 5, 6}, 抛 一 枚 硬币 的 可 能 
结果 的 集合 是 { 五 ,T}, 其 中 五 代表 正面 向 上 , T 代表 反面 向 上 . 
若 3 包含 无 限 多 个 元 素 zt zi ……, 但 它们 可 以 像 正 整数 那样 排 成 一 列 , 我 们 
可 写成 
3 一 {zlz2 
此 时 称 5 为 可 数 无 限 集 . 例如 , 偶数 的 集合 {0, 2, -2,4, -4,…} 是 一 个 可 数 无 限 集 . 
我 们 也 可 以 以 x 具有 某 种 性 质 P 为 条 件 来 刻画 一 个 集合 , 记 作 
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例如 , 偶数 集合 可 写成 {k| &/2 是 整数 }. 类 似 地 , 在 实数 区 间 [0, 1] 中 的 数 集 可 表示 
成 {z| 0 < x < 1}. 注意 , 集合 {zl0 < xz < 1} 是 一 个 连续 集合 , 它 不 可 能 排 成 一 列 
( 章 后 习题 中 给 出 了 证 明 概 要 ). 这 样 的 集合 是 不 可 数 的 集合 . 
若 集 合 5S 的 所 有 元 素 均 为 集合 工 的 元 素 , 就 称 5 为 工 的 子 集 , 记 作 5ScT 或 
了 TD 3. 引入 空间 的 概念 是 十 分 必要 的 . 将 我 们 感 兴趣 的 所 有 元 素 放 在 一 起 , 形成 
一 个 集合 , 这 个 集合 称 为 空间 , 记 作 Q. 当 确定 以 后 , 我 们 所 讨论 的 集合 5 都 是 
Q 的 子 集 . 
1.1.1 ”集合 运算 
集合 {z eol z & 3] 称 为 集合 5 相对 于 9 的 补 集 , 记 作 5“. 注意 mc = &g. 
由 属于 5 或 属于 了 的 元 素 组 成 的 集合 称 为 9 和 了 的 并 , 记 为 SUuT . 既 属 于 
5 又 属于 了 的 元 素 组 成 的 集合 称 为 9 和 了 的 交 , 记 成 SNnT. 这 些 集合 可 用 下 列 
公式 表达 
SUT={z|ze5 或 zeT), 
和 
SNT={zx|zeS 和 zeT}. 


有 时 候 我 们 需要 考虑 几 个 甚至 无 穷 个 集合 的 并 和 交 的 问题 . 例如 , 对 每 一 个 n, 确 
定 一 个 集合 5%, 则 


(5, = 51U 52.… = {z| ze Sn 对 某 个 n 成立 }， 


n= 二 1 


5%=51N52...= {z| ze€ Sn 对 一 切 n 成 立 }. 


n=1 


(b) 阴影 部 分 是 SUT 


(d) 此 处 是 Tc 5, 阴 (e) 5, T, UV 互 不 相交 (f) 5. T 和 U 形 成 0 的 
影 部 分 是 5 -个 分 割 


图 1.1 韦 恩 图 的 例子 
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两 个 集合 称 为 不 相交 的 , 如 果 它 们 的 交集 为 空 集 . 更 一 般 地 , 几 个 集合 称 为 互 
不 相交 的 , 如 果 任 何 两 个 集合 没有 公共 元 素 . 一 组 集合 称 为 集合 5 的 分 割 , 如 果 这 
组 集合 中 的 集合 互 不 相交 , 并 且 它们 的 并 为 3. 

设 z 和 yy 为 两 个 研究 对 象 , 我 们 用 (z,y) 表示 z 和 y 的 有 序 对 . 我 们 用 R 表 
示 实 数 集合 , 用 R? 表示 实数 对 的 集合 , 即 二 维 平 面 , 用 Rs 表示 三 维 实数 向 量 的 集 
合 (三 维 空间 ). 集合 及 其 运算 可 用 韦 恩 图 形象 化 表示 , 见 图 1.1. 


1.1.2 ”集合 的 代数 
集合 运算 具有 若干 性 质 , 这 些 运 算 性 质 可 由 运算 的 定义 直接 证 得 , 举例 如 下 : 
SUT=TUS, SU(TUUV)= (SUT)UD, 
SN(TUD)= (SNT)U (SNU), SU(TNU)= (SUT)N(SUD), 
(S°)°:=5, SNS°=%, 
SUN=0, SNN=5. 


下 面 给 出 的 两 个 公式 就 是 著名 的 德 摩根 定律 
(U 5 = /Ss, (Ns) =( jss. 


现在 证 明 第 一 个 公式 . 设 z € (UnSn)*, 这 说 明 z 9 US 即 对 一 切 mm z 4 5,. 
而 , 对 每 一 个 n, zx 属于 5% 的 补 集 , 即 z e mi,se. 这 样 , 我 们 得 到 (USn) C Nyse. 
反 过 来 包含 关系 的 证 明 , 只 需 将 我 们 的 论证 从 后 面 往 前 推 即 可 . 而 第 二 个 公式 的 证 
明 完 全 类 似 . 


1.2 概率 模型 


概率 模型 是 对 不 确定 现象 的 数学 描述 . 为 了 与 本 节 讨 论 的 基本 框架 保持 一 致 
我 们 如 下 列 出 了 它 的 两 个 基本 构成 , 并 用 图 1.2 进行 了 形象 化 . 


概率 模型 的 基本 构成 
。 样本 空间 9, 这 是 一 个 试验 的 所 有 可 能 结果 的 集合 . 


。 概率 律 , 概率 律 为 试验 结果 的 集合 4( 称 之 为 事件 ) 确定 一 个 非 负数 P(4) 
( 称 为 事件 4 的 概率 ). 而 这 个 非 负数 刻画 了 我 们 对 事件 4 的 认识 或 所 产 
生 的 信念 的 程度 . 稍 后 将 指出 概率 律 必须 满足 的 某 些 性 质 . 
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样本 空间 
(可 能 结果 的 集合 ) 事件 


图 1.2 概率 模型 的 基本 构成 


1.2.1 样本 空间 和 事件 


每 一 个 概率 模型 都 关联 着 一 个 试验 , 这 个 试验 将 产生 一 个 试验 结果 . 该 试验 的 
所 有 可 能 结果 形成 祥 本 空间 , 用 Q 表示 样本 空间 . 样本 空间 的 子 集 , 即 某 些 试验 结 
果 的 集合 , 称 为 事件 ”. 对 于 前 面 提 到 的 试验 , 我 们 不 必 过 多 地 考虑 其 物理 含义 , 例 
如 , 可 以 抛 撕 一 枚 硬币 , 也 可 以 抛掷 3 枚 硬币 , 或 持续 地 、 无 限 次 地 抛掷 硬币 . 然而 
我 们 所 讨论 的 概率 模型 的 问题 中 , 只 涉及 一 个 试验 . 所 以 在 连续 抛 措 三 次 硬币 的 试 
验 , 只 能 作为 一 次 试验 , 不 能 认为 是 三 次 试验 . 

样本 空间 可 由 若干 个 试验 结果 组 成 , 也 可 由 无 限 多 个 试验 结果 组 成 . 从 数学 上 
和 概念 上 来 看 , 有 限 样 本 空间 比较 简单 . 实际 应 用 中 , 具有 无 限 多 个 结果 的 样本 空 
间 也 是 很 常见 的 . 例如 , 往 一 个 方形 目标 上 掷 飞 标 , 可 将 每 个 可 能 的 弹 着 点 作为 试 
验 的 结果 . 
1.2.2 ”选择 适当 的 样本 空间 

在 确定 样本 空间 的 时 候 , 不 同 的 试验 结果 必须 是 相互 排斥 的 , 这 样 , 在 试验 过 
程 中 只 可 能 产生 唯一 的 一 个 结果 . 例如 , 当 试验 是 掷 一 枚 般 子 的 时 候 , 不 能 把 “1 或 
3” 定 为 一 个 试验 结果 , 同时 又 把 “1 或 4” 也 定义 为 一 个 结果 , 如 果 这 样 定义 了 , 那 
么 当 搓 得 1 点 的 时 候 , 就 不 知道 得 到 的 是 什么 结果 了 . 

对 同一 个 试验 , 根据 我 们 的 兴趣 可 以 确定 不 同 模型 . 但 是 确定 模型 时 , 我 们 不 
能 遗漏 其 样本 空间 中 的 任何 一 个 结果 . 也 就 是 说 在 试验 过 程 中 不 管 发 生 什么 情况 ， 
我 们 总 能 够 得 到 样本 空间 中 的 一 个 结果 . 另外 , 在 建立 样本 空间 的 时 候 , 一 方面 要 
避免 不 必要 的 烦琐 , 同时 要 清楚 地 刻画 我 们 感 兴趣 的 事件 . 
例 1.1 考虑 两 个 不 同 的 游戏 , 它们 都 涉及 连续 抛 扼 10 次 硬币 . 

游戏 1: 每 次 抛掷 硬币 的 时 候 , 只 要 出 现 正面 向 上 , 我 们 就 赢 1 元 钱 . 

QD 任意 一 个 可 能 结果 的 集合 , 包括 样本 空间 Q 本 身 和 它 的 补 集 @, 都 可 能 作为 事件 . 当然 , 严格 来 

讲 , 在 一 个 具有 不 可 数 无 限 多 个 试验 结果 的 样本 空间 中 ， 有 些 子 集 不 可 能 定义 有 意义 的 概率 . 这 涉 


及 测度 论 的 数学 知识 .但 实际 上 我 们 一 般 不 会 遇 到 这 种 特殊 的 情况 ,因此 我 们 不 必 考 虑 这 种 特殊 
问题 . 
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游戏 2: 在 抛掷 硬币 的 过 程 中 , 直到 出 现 第 一 次 正面 向 上 ( 含 正面 向 上 的 那 一 
次 ), 以 前 的 每 次 抛掷 我 们 都 赢 1 元 钱 (车 10 次 抛 抑 都 是 正面 向 下 , 我 们 赢得 10 元 
钱 )， 若 出 现 第 一 次 正面 向 上 以 后 还 有 机 会 抛掷 硬币 , 则 以 后 每 次 抛 撕 硬 币 时 我 们 
赢 2 元 钱 , 一 直到 第 二 次 出 现 正面 向 上 . 每 次 抛 抑 得 到 正面 向 上 的 时 候 ,以 后 每 次 
抛掷 硬币 所 赢 的 钱 数 比 以 前 每 次 抛掷 硬币 所 赢得 的 钱 数 加 倍 . 

在 游戏 1 中 , 我 们 赢 的 钱 数 只 与 10 次 抛 抑 中 正面 向 上 的 次 数 有 关 ; 而 在 游戏 
2 中 , 我 们 的 赢 钱 数 不 仅 与 正面 出 现 的 次 数 有 关 , 也 与 正 反 面 出 现 的 顺序 有 关 . 这 
样 在 游戏 1 中 , 样本 空间 可 由 11 个 ( 即 0,1,2,.…… ,10) 试验 结果 组 成 , 而 在 游戏 2 
中 , 样本 空间 由 所 有 的 长 度 为 10 的 正 、 反 序列 组 成 . 口 


1.2.3 ” 序 贯 模型 


许多 试验 本 身 具 有 序 贯 的 特征 . 例如 , 连续 抛 奖 一 枚 硬币 , 一 共 抛 三 次 , 或 者 连 

续 观察 一 只 股票 , 共 观 察 5 天 , 又 或 者 在 一 个 通信 接收 设备 上 接收 8 位 数字 . 我 们 
常用 序 贯 树 形 图 来 刻画 样本 空间 中 的 试验 结果 , 如 图 1.3 所 示 . 

国人 和 人 移 于 试验 的 序 贯 树 形 图 

1 2 

,3 

,4 

3 

第 二 次 转动 

2 


叶 


1 
1 


2 3 4 
第 一 次 转动 
-图 1.3 序 贯 树 形 图 示例 , 设 所 考虑 的 试验 连续 两 次 转动 有 4 个 边 的 骨 子 了 , 其 样本 空间 有 两 
种 等 价 的 刻画 方法 .在 这 个 试验 中 , 可 能 的 结果 是 全 体 有 序 对 (i, 力 , 其 中 i 表示 第 
一 次 转动 角 子 得 到 的 数字 , ; 表示 第 二 次 转动 角子 得 到 的 数字 .试验 结果 可 用 左 图 中 
的 2 维 格子 点 表示 , 也 可 以 用 右 图 中 的 序 贯 树 形 图 表示 , 后 者 的 优点 是 可 以 表示 试验 
的 序列 特征 . 在 序 贯 树 形 图 中 , 每 个 可 能 的 试验 结果 可 以 用 一 个 末端 的 树叶 表示 , 或 
等 价 地 用 与 树叶 相 联 系 的 由 树叶 到 根部 的 一 个 路 径 表 示 2 . 左 图 中 阴影 部 分 代表 事件 
{(1, 4), (2, 4), (3,4), (4, 4)}, 它 表示 第 2 次 抛掷 得 到 4. 同一 个 事件 可 以 在 右 图 中 用 空 
心 圆 点 标示 的 叶子 集合 表示 . 注意 序 贯 树 形 图 中 的 每 一 个 结 点 可 以 代表 一 个 事件 , 这 
个 事件 就 是 由 这 个 结 点 出 发 的 所 有 的 叶子 构成 的 事件 . 例如 , 在 序 贯 树 形 图 中 用 1 标 
示 的 结 点 代表 事件 {(1, 1), (1, 2), (1, 3), (1, 4)}, 即 第 一 次 抛掷 得 1 的 事件 
@ 当 转 动 的 般 子 有 6 个 试验 结果 的 时 候 , 就 是 指 抛掷 常见 的 正六 面体 . 此 处 可 理解 为 在 桌面 上 转动 
一 个 可 绕 轴 转动 的 正四 边 形 ， 当 停止 旋转 的 时 候 , 只 有 一 边 与 桌面 接触 . 本 书 中 的 山子 都 可 以 如 此 
解释 . 译 者 注 
@ 用 路 径 表示 更 能 显示 试验 的 序 贯 特征 . 一 一 译 者 注 
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1.2.4 ”概率 律 


假定 我 们 已 经 确定 了 样本 空间 Q 以 及 与 之 联系 的 试验 , 为 了 建立 一 个 概率 模 
型 , 下 一 步 就 是 要 引进 概率 律 的 概念 . 直观 上 , 它 确定 了 任何 结果 或 者 任何 结果 的 
集合 ( 称 之 为 事件 ) 的 似 然 程度 . 更 精确 一 点 说 , 它 给 每 一 个 事件 4, 确定 一 个 数 
P(4), 称 之 为 事件 4 的 概率 . 它 满足 下 面 的 几 条 公理 . 


概率 公理 

(1) ( 非 负 性 ) 对 一 切 事件 4, 满足 P(4) > 0. 

(2) (可 加 性 ) 设 4 和 B 为 两 个 互 不 相交 的 集合 (概率 论 中 称 为 互 不 相 容 的 
事件 ), 则 它们 的 并 满足 


P(AU B) =P(A) + P(B). 
更 一 般 地 , 车 A1, A2,… 是 一 个 互 不 相 容 的 事件 序列 , 则 它们 的 并 满足 
P(A1U A2U...) = P(A1)+ P(A2) 十 …: ， 


| 印 扫 一 他 ) 整个 样本 空间 9( 称 为 必然 事件 ) 的 概率 为 1, 即 P(O) 一 1 


为 了 将 概率 律 形象 化 , 可 以 把 样本 空间 中 的 试验 结果 看 成 质点 , 每 一 个 质点 有 
一 个 质量 . P(4) 就 是 这 个 质点 集合 的 总 质量 , 而 全 空间 的 总 质量 为 1. 这 样 , 概率 
律 中 的 可 加 性 公理 就 变 得 很 直观 了 : 不 相交 的 事件 序列 的 总 质量 等 于 各 个 事件 的 
质量 之 和 . 

概率 的 更 具体 的 解释 是 频率 . P(A) = 2/3 表示 这 样 的 一 个 信念 : 在 大 量 重复 的 
试验 中 事件 4 出 现 的 频率 约 为 2/3. 这 样 的 解释 , 虽然 不 总 是 合适 的 , 但 有 时 却 很 
直观 易 懂 . 第 5 章 将 会 重新 讨论 这 种 解释 . 

概率 律 有 许多 重要 的 性 质 并 没有 包含 到 概率 律 的 公理 系统 中 , 其 原因 很 简单， 
它们 可 以 从 公理 系统 中 推导 出 来 . 例如 , 由 可 加 性 和 归 一 化 公理 可 得 到 


1=P(0) = P(QUS2)= P(N)+P(S)= 1+P(®), 
由 这 个 性 质 可 知 空 事 件 ( 称 为 不 可 能 事件 ) 的 概率 为 0, 即 
P(G) = 0. 


现在 推导 另 一 个 性 质 , 令 41, 4。 和 4s 为 互 不 相 容 的 事件 , 重复 利用 可 加 公理 , 可 
得 到 
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P(A1U Az U 43) = P(A1U (Az U As)) 
= P(A1) + P(A2U As) 
= P(A1) 十 P(4?) 十 P(43). 
类 似 的 推导 可 以 得 到 : 有 限 多 个 互 不 相 容 的 事件 的 并 的 概率 等 于 它们 各 自 的 概率 
之 和 . 后 面 将 讨论 更 多 的 性 质 . 
1.2.5 ”离散 模型 
现在 以 实例 说 明 构造 概率 律 的 方法 .通常 我 们 根据 实际 试验 中 的 一 些 常识 性 
假设 构造 概率 律 . 
例 1.2 ”考虑 抛掷 一 枚 硬币 . 一 共有 两 种 结果 , 正面 向 上 {万} 和 反面 向 上 {T}. 样 
本 空间 为 9 = {五 ,T}, 事件 为 
{H,T}, {H}, {7T},%. 
车 硬币 是 均 勾 的 , 即 我 们 相信 在 抛 指 硬币 的 时 候 , 两 面具 有 相同 的 机 会 出 现 , 我 们 
应 该 确定 两 个 结果 的 概率 是 相等 的 , 即 P({ 互 }) = P({T}). 由 可 加 性 公理 和 归 一 性 
公理 可 知 
P({H,7T}) = P({H})+P({T})=1, 
由 此 可 推导 得 概率 律 


PU{H,THD=1, PHUHD=0.5, P(7T)=0.5, P({2}))=0. 
显然 , 所 建立 的 概率 律 满足 三 条 公理 . 


考虑 另 一 个 试验 , 依次 抛 奖 三 枚 硬币 . 试验 结果 是 由 正面 和 反面 组 成 的 长 度 为 
3 的 序列 . 样本 空间 为 


0 = {HHH,HHT,HTH, HTT,THH,THT,TTH,TTT)}. 


假定 上 述 8 种 结果 的 可 能 性 是 相同 的 , 即 每 个 结果 的 概率 为 1/8. 现在 利用 三 条 公 
理 建 立 概率 律 . 例如 事件 
和 4 = {两 个 正面 向 上 , 一 个 反面 向 上 } = {HHT, HTH,THH}. 
利用 概率 律 的 可 加 性 公理 , 事件 4 的 概率 等 于 组 成 该 事件 的 试验 结果 的 概率 之 和 |: 
P({HHT, HTH,THH})=P({HHT) +P (UHTH})) +P({THHY) 
1 1 1 


一 


相似 地 , 任何 事件 的 概率 等 于 1/8 乘 上 该 事件 中 包含 的 结果 的 个 数 . 口 
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利用 概率 律 的 可 加 性 公理 以 及 前 面 例子 中 的 推理 方法 , 可 以 得 到 下 面 的 结论 . 


离散 概率 律 
设 样本 空间 由 有 限 个 可 能 的 结果 组 成 , 则 事件 的 概率 可 由 组 成 这 个 事件 的 试 
验 结果 的 概率 所 决定 . 事件 {31, s2,… , sn} 的 概率 是 P(si) 之 和 , 邯 


P({fst sa…… ,Sn}) = P(s1) + P(s2) + 二 +P(sn). 


此 处 我 们 用 简单 的 记号 P(si) 表示 事件 {s;} 的 概率 , 而 不 用 正式 的 记号 P({s;}). 
本 书后 面 都 按 这 个 简化 的 约定 书写 . 


现在 设 样本 空间 为 09 = {s1, s2,… , sn}, 并 且 每 个 试验 结果 是 等 概率 的 . 利用 
归 一 化 公理 可 知 P(s;) = 1/n,i = 1,2,… ,n, 我 们 得 到 定律 . 


离散 均匀 概率 律 (古典 概 型 ) 


设 样本 空间 由 n 个 等 可 能 性 的 试验 结果 组 成 , 因此 每 个 试验 结果 组 成 的 事件 
( 称 为 基本 事件 ) 的 概率 是 相等 的 . 由 此 得 到 


~ 疆 . 
P(4) -- 全 于 事件 4 的 试验 结果 数 


现在 进一步 讨论 一 些 例子 . 
例 1.3 考虑 连续 两 次 转动 一 个 有 4 个 边 的 明 子 ( 见 图 1.4). 现在 假定 这 些 山 子 
是 均匀 的 , 这 个 假定 意味 着 16 种 可 能 的 试验 结果 是 等 可 能 的 , 即 16 种 结果 的 每 一 
种 可 能 的 结果 (i, 7) 出 现 的 概率 为 1/16(i,7 = 1,2,3,4). 这 是 一 个 古典 概 型 . 在 计 
算 一 个 事件 的 概率 的 时 候 必 须 数 清 楚 这 个 事件 所 包含 的 试验 结果 数 (基本 事件 数 )， 
将 这 个 结果 数 除 以 16 (基本 事件 总 数 ) 便 得 到 这 个 事件 的 概率 . 下 面 几 个 事件 概率 
就 是 用 这 种 方法 计算 得 到 的 . 

P ({ 两 次 点 数 总 和 为 偶数 }) = 8/16 = 1/2， 

P ({ 两 次 点 数 总 和 为 奇数 }) = 8/16 = 1/2， 

P ({ 第 一 次 点 数 与 第 二 次 点 数 相同 }) = 4/16 = 1/4， 

P ({ 第 一 次 点 数 比 第 二 次 点 数 大 }) = 6/16 = 3/8， 


P ({ 至 少 有 一 次 转动 的 点 数 等 于 4}) = 7/16. 口 
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两 次 转动 一 个 货 子 
的 样本 空间 


第 二 次 转动 


事件 二 {至 少 一 次 转动 得 4)}、 
 - ) 


概率 一 7/16 


1 


3 
第 一 次 转动 

事件 ={ 两 次 转动 的 结果 相同 }、 

概率 =4/16 


图 1.4 在 连续 两 次 转动 一 个 有 4 个 边 的 散 子 的 过 程 中 的 阁 干 事件 和 它们 的 概率 , 计算 依据 高 
散 均匀 概率 律 


1.2.6 ”连续 模型 


若 试 验 的 样本 空间 是 一 个 连续 集合 , 其 相应 的 概率 律 与 离散 情况 有 很 大 的 差 

别 . 在 离散 情况 下 , 基本 事件 的 概率 就 可 以 确定 概率 律 , 但 连续 情况 却 不 同 . 下 面 是 
一 个 例子 . 在 这 个 例子 中 将 离散 模型 中 的 等 概率 模型 推广 到 连续 的 情况 . 
例 1.4 在 赌场 中 有 一 种 称 为 幸运 轮 的 赌 具 . 在 轮子 上 均匀 连续 地 刻度 , 刻度 范围 
为 0 到 1. 当 转 动 的 轮子 停止 时 , 固定 的 指针 会 停留 在 刻度 上 . 这 样 , 产生 的 试验 结 
果 是 [0,1] 中 的 一 个 数 , 指针 所 指向 的 位 置 的 刻度 . 因此 样本 空间 是 Q = [0,1]. 假 
定 轮子 是 均匀 的 , 因此 可 以 认为 轮子 上 的 每 一 个 点 在 试验 中 都 是 等 可 能 的 . 但 一 个 
单 点 在 试验 中 出 现 的 可 能 性 有 多 大 昵 ? 它 不 可 能 是 正 数 , 否则 的 话 , 若 单 点 出 现 的 
概率 为 正 , 利用 可 加 性 公理 , 可 导致 某 些 事件 的 概率 大 于 1 的 匾 雇 结论. 因此 单个 
点 所 组 成 的 事件 的 概率 必定 为 0. 

在 本 例 中 , 可 定义 子 区 间 [a,4] 的 概率 为 5 一 a. 更 复杂 的 集合 的 概率 可 以 定义 
为 这 个 集合 的 长 度 .” 这 样 定义 的 概率 满足 概率 律 的 3 条 公理 , 因此 本 例 中 定义 的 
概率 是 符合 要 求 的 概率 律 . 口 
例 1.5 罗密欧 和 朱丽叶 约定 在 某 时 刻 见面 , 而 每 个 人 到 达 约 会 地 点 的 时 间 都 会 有 
延迟 , 延迟 时 间 在 0~1 小 时 . 第 一 个 到 达 约会 地 点 的 人 会 在 那儿 等 待 15 分 钟 , 等 
了 15 分 钟 后 若 对 方 还 没有 到 达 约 会 地 点 , 先 到 者 会 离开 约会 地 点 . 问 他 们 能 够 相 
会 的 概率 有 多 大 ? 

考虑 直角 坐标 系 的 单位 正方 形 9 = [0, 1] x [0,1]. 正方 形 中 的 每 个 点 的 两 个 坐 


QD [0,1] 的 一 个 子 集 3 的 长 度 定义 为 Js dt 对 于 比较 简单 的 子 集 ， 可 利用 通常 的 微 积 分 计算 这 个 积 
分 . 对 于 某 些 不 寻常 的 集合 , 这 个 积分 可 能 没有 合适 的 定义 , 这 些 事情 属于 更 高 深 的 数学 处 理 的 问 
题 . 顺便 指出 , 用 长 度 刻画 概率 律 的 合法 性 蕴涵 了 单位 区 间 是 一 个 不 可 数 无 限 集 ， 不 然 的 话 ， 由 于 
每 个 单 点 的 概率 为 零 , 可 导致 [0, 1] 的 概率 为 0 的 结论 , 这 与 概率 的 归 一 化 公理 相 矛 盾 . 
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标 分 别 代表 他 们 可 能 的 延迟 时 间 , 每 个 点 都 可 以 是 他 们 的 延迟 时 间 , 而 且 是 等 可 能 
的 . 由 于 等 可 能 性 的 特点 , 我 们 将 的 子 集 出 现 的 概率 定义 为 这 个 子 集 的 面积 . 这 
个 概率 律 满足 概率 的 3 条 公理 . 罗密欧 和 朱丽叶 能 够 相 会 的 事件 可 用 图 1.5 中 阴 
影 部 分 表示 . 它 的 概率 等 于 7/16. 口 


y 


1/4 


0 1/4 1 区 
1.5 事件 M 代表 罗密欧 和 朱丽叶 的 相互 等 待 时 间 不 超过 15 分 钟 ，M 是 图 中 阴影 部 分 
( 见 例 1.5), 即 
M= {zz -ys<1/40<r<10<y<1}. 
MM 的 面积 等 于 1 减 去 两 个 没有 阴影 的 三 角形 的 面积 之 和 , 即 1 一 (3/4):(3/4) = 7/16. 
因此 , 他 们 能 够 相 会 的 概率 为 7/16 
1.2.7 ”概率 律 的 性 质 


由 概率 公理 可 以 推导 出 很 多 性 质 , 下 面 列举 若干 性 质 . 


概率 律 的 若干 性 质 
考虑 一 个 概率 律 , 令 A,B 和 C 为 事件 . 
(a) 荐 AcB 则 P(A4) < P(B). 


(b) P(AUB)=P(A)+P(B)— P(ANB). 
(c) P(AUB) < P(A)+P(B). 
(qd) P(AUBUC)= P(A)+P(A°NB)+P(A° NB NO). 


这 些 性 质 以 及 其 他 类 似 的 性 质 , 都 可 以 形象 化 地 用 韦 恩 图 证 明 ( 见 图 1.6). 注 
意 , 性 质 (c) 可 以 推广 成 
P(Ai UA2U...U An) < Pd) 
i¢=1 
现在 证 明 这 个 推广 的 结果 . 将 性 质 (c) 用 于 事件 4A! 和 42 U…U 4n, 得 到 
| P(A1U As UUAn,) < P(A1)+P(A2 UU A,). 
进一步 将 (c) 用 于 事件 4。 和 4s U.…U 4 得 到 
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P(A2U As U-:..U A,) < P(A2) + P(As UU A,). 
如 此 继续 下 去 , 最 后 将 诸 不 等 式 相 加 , 便 得 到 所 需 结果 . 


1.6 ”利用 韦 恩 图 直观 地 验证 概率 律 的 性 质 (a),(b),(c) 和 (d), 设 4 c B, 则 B 是 两 个 不 
相 容 的 事件 4 和 4° mn B 的 并 ( 见 图 (a)). 利用 可 加 性 公理 得 


P(B)= P(A)+P(A° NB) > P(A4), 
其 中 不 等 式 利用 了 概率 的 非 负 性 公理 . 性 质 (a) 得 证 . 
由 图 (b), 可 将 事件 AU B 和 B 分 解 成 不 相 容 的 事件 之 和 : 
AUB= AU(A° NB), B= (ANB)U(A° NB). 
利用 可 加 性 公理 , 得 到 
P(AUB)=P(A)+P(A° NB), P(B)= P(ANB)+P(A° NB). 


第 一 式 减 去 第 二 式 以 后 经 过 各 项 移动 合并 得 到 P(AUB) = P(A4)+P(B)--P(4NnB)， 
即 性 质 (b) 成 立 ， 利用 概率 的 非 负 性 公理 得 到 P(A4 mm B) > 0, 从 而 P(A U B) < 
P(A4) 十 P(B) 成 立 , 性 质 (c) 得 证 . 
由 图 (c), 可 以 看 出 事件 4U BUC 可 以 分 解 成 3 个 互 不 相 容 的 事件 的 并 : 
AUBUC= AU(ANB)U(A°NB’ NO), 


重复 利用 可 加 性 公理 可 得 到 性 质 (qd). 


1.2.8 ”模型 和 现实 
概率 理论 可 以 用 来 分 析 现 实 世界 的 许多 不 确定 现象 . 这 个 过 程 通常 分 成 两 个 阶段 . 
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(a) 第 一 阶段 , 在 一 个 适当 的 样本 空间 中 给 出 概率 律 , 从 而 建立 概率 模型 . 在 这 
个 阶段 , 没有 关于 建立 模型 的 一 般 规 则 , 只 要 你 所 建立 的 概率 律 符合 概率 的 三 条 公 
理 就 行 , 有 些 人 会 怀疑 所 建立 模型 的 真实 性 ， 有 时 , 人 们 宁愿 使 用 “错误 ”的 模型 ， 
其 理由 是 “错误 ”的 模型 比 “ 正 确 ” 的 模型 简单 且 易 于 处 理 . 这 种 处 理 问题 的 态度 
在 科学 和 工程 学 中 很 普遍 . 在 实际 工作 中 , 选择 的 模型 往往 既 要 准确 、 简 单 又 要 兼 
顾 其 易 操作 性 . 此 外 , 统计 学 家 还 依据 历史 数据 和 过 去 相似 试验 的 结果 , 利用 统计 
方法 确定 模型 . 这 将 在 第 8 章 和 第 9 章 中 进行 讨论 . 

(b) 在 第 二 阶段 , 我 们 将 在 完全 严格 的 概率 模型 之 下 进行 推导 , 计算 某 些 事件 
的 概率 或 推导 出 一 些 十 分 有 趣 的 性 质 ， 第 一 阶段 的 任务 是 建立 现实 世界 与 数学 的 
联系 , 而 第 二 阶段 则 严格 限制 在 概率 公理 之 下 的 逻辑 推理 . 在 后 一 阶段 , 如 果 涉 及 
的 计算 很 复杂 或 概率 律 的 陈述 不 简明 的 情况 下 , 推理 和 理解 就 会 遇 到 困难 . 但 是 所 
有 的 问题 将 会 有 一 个 准确 的 答案 , 不 会 产生 歧义 . 只 要 有 足够 高 的 能 力 , 所 有 的 困 
难 都 将 化 为 乌有 . 

在 概率 论 中 充满 这 样 的 “ 悖 论 ”: 对 同一 个 问题 , 不 同 的 计算 方法 得 到 不 同 的 
结论 . 在 这 种 模棱两可 的 概率 律 中 选 定 模型 会 导致 结论 的 不 确定 . 贝 特 朗 悖 论 是 一 
个 著名 的 例子 ( 见 图 1.7). 


概率 论 发 展 简 史 
。 公元 前 . 在 古 希腊 和 十 罗马 时 期 ， 机 会 游戏 十 分 盛行 但 是 这 个 时 期 关于 
游戏 的 理论 还 没有 发 展 起 来 . 究 其 原因 , 那 时 候 希 腊 的 数字 系统 不 能 提供 
代数 运算 发 展 的 机 会 ,在 科学 分 析 基 础 上 的 概率 论 一 直 等 到 印度 和 阿拉 
伯 发 明了 现代 算数 系统 (第 一 个 千年 的 后 半 时 )， 以 及 文艺 复兴 时 期 产生 
了 大 量 的 科学 思想 , 才 有 机 会 发 展 . 
。16 世纪 . 卡尔 达 诺 , 一 个 光彩 夺目 同时 富有 和 争议 的 意大利 数学 家 出 版 了 
第 1 本 关于 机 会 游戏 的 书 ， 书 中 给 出 了 碧 髓 子 和 扑克 游戏 中 随机 事件 的 
概率 的 正确 计算 方法 . 
。 17 世纪 . 费 马 和 帕斯卡 之 间 的 一 篇 通讯 中 提 及 几 个 十 分 有 趣 的 概率 问题 ， 
推动 了 这 个 领域 内 的 研究 热潮 . 
。 18 世纪 . 雅 可 比 . 伯 努 利 研究 了 重复 投 币 试验 序列 并 引入 了 第 一 条 大 数 
定律 . 这 条 大 数 定律 为 联系 理论 概率 与 经 验 事实 打下 了 基础 . 后面 的 数学 
家 , 诸如 和 丹尼尔. 伯 努 利 、 莱 布 尼 兹 、 贝 叶 斯 、 拉 格 朗 日 等 人 对 理论 概率 
论 的 发 展 和 实际 应 用 也 作出 了 巨大 贡献 . 栋 莫 弗 引 入 了 正 态 分 布 并 证 明 
了 第 一 个 中 心 极限 定理 . 
。 19 世纪 . 拉 普 拉 斯 在 他 的 一 本 很 有 影响 的 书 中 确立 了 概率 论 在 定量 研究 
领域 中 的 重要 地 位 . 同时 他 本 人 对 概率 论 作 出 了 许多 原创 性 的 贡献 , 包括 
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推导 了 更 一 般 形式 的 中 心 极限 定理 ， 勤 让 德 和 高 斯 将 概率 论 应 用 到 天 文 
预测 , 并且 应 用 了 最 小 二 乘法 , 他 们 的 工作 大 大 地 拓展 了 概率 论 的 应 用 领 
域 . 泊 松 出 版 了 一 本 很 有 影响 的 书 ,其 中 包括 了 他 的 很 多 原创 性 的 成 果 , 以 
他 的 姓名 命名 的 泊 松 分 布 也 在 其 中 . 切 比 雪夫 和 他 的 学 生 马尔 可 夫 、 李 雅 
普 诺 夫 等 研究 了 极限 定理 , 在 这 个 领域 内 提高 了 数学 的 严格 性 的 标准 . 在 
此 时 期 , 概率 论 被 认为 是 自然 科学 的 一 部 分 , 它 的 主要 任务 是 解释 物理 现 


象 . 在 这 种 思想 的 主导 之 下 , 概率 被 解释 为 重复 试验 中 相对 频率 的 极限 . 
20 世纪 . 现在 已 经 不 再 以 相对 频率 作为 概率 论 的 基础 概念 . 代 之 以 由 科 
尔 莫 戈 罗 夫 引入 的 普遍 适用 的 概率 论 公 理 系统 . 与 数学 的 其 他 分 支 一 样 ， 
在 公理 系统 的 基础 上 发 展 起 来 的 概率 论 只 依赖 于 逻辑 的 正确 性 , 而 与 实际 
物理 现象 的 联系 无 关 . 然而 , 由 于 概率 论 能 够 描述 和 解释 现实 世界 中 绝 大 
部 分 的 不 确定 性 现象 , 因而 在 科学 和 工程 中 , 概率 论 得 到 广泛 应 用 . 


通过 C 点 的 弦 2 
(a) (b) 


1.7 ” 贝 特 朗 悖 论 . 该 例子 由 贝 特 朗 于 1889 年 提供 , 它 说 明 这 样 一 个 原理 : 解决 一 个 实际 问 
题 的 时 候 , 必须 正确 无 误 地 写 出 概率 律 . 设 在 一 个 圆 内 有 一 个 正三 角形 ,内 接 于 圆周 . 
现在 随机 地 选 定 一 个 弦 , 问 其 长 度 大 于 内 接 正 三 角形 的 边 的 概率 等 于 多 少 ? 其 解答 依 
赖 于 “随机 地 选 定 ” 的 确切 定义 , 图 中 (a) 和 (b) 的 两 种 方法 导致 相互 矛盾 的 结论 . 

在 图 (a) 中 , 取 一 半径 AB, 在 4B 上 随机 地 取 一 个 点 C. 所 谓 随 机 地 取 点 是 指 
4B 上 所 有 的 点 具有 相同 的 机 会 被 取 到 .通过 点 C, 作 一 条 弦 垂 直 于 4B， 由 初等 几 
何 的 知识 可 知 , 当 C 点 的 位 置 怡 巧 在 AB 的 中 点 时 , 弦 的 长 度 刚 好 等 于 三 角形 的 边 
长 , 而 远离 圆心 时 , 弦 的 长 度 减 小 . 这 样 弦 的 长 度 大 于 内 接 正三 角形 的 边 长 的 概率 等 
于 1/2. 

在 图 (b) 中 , 圆周 上 取 一 点 Y 作为 项 点, 通过 Y 先 画 一 条 切线 , 然后 随机 地 画 
一 条 通过 Y 的 直线 . 记 直线 与 切线 的 夹 角 为 $. 由 于 这 条 直线 是 随机 地 画 的 , 可 以 认 
为 夹 角 更 是 在 (0, x) 上 均匀 地 分 布 的 . 现在 考虑 这 条 直线 制 圆 得 到 的 弦 的 长 度 . 由 
初等 几何 的 知识 可 知 , 当 5 处 于 (r/3, 2x/3) 的 范围 内 , 弦 的 长 度 大 与 三 角形 的 边 长 . 
由 于 $ 取 值 于 (0,m), 故 这 根 弦 大 于 内 接 正 三 角形 边 长 的 概率 是 1/3 
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1.3 条 件 概 率 


条 件 概率 是 在 给 定 部 分 信息 的 基础 上 对 试验 结果 一 种 推断 . 下 面 是 一 些 例子 . 

(a) 在 连续 两 次 抛掷 股子 的 试验 中 , 已 知 两 粒 般 子 的 点 数 的 总 和 为 9, 第 一 粒 仇 
子 的 点 数 为 6 的 可 能 性 有 多 大 ? 

(b) 在 猜 字 游戏 中 , 已 知 第 一 个 字母 为 t, 第 二 个 字母 为 h 的 可 能 性 有 多 大 ? 

(c) 在 查 体 时 , 为 检查 是 否 患 某 种 疾病 需要 检测 某 项 指标 . 已 知 某 人 的 该 项 指 
标 为 阴性 , 问 这 个 人 得 病 的 可 能 性 有 多 大 ? 

(qd) 在 雷达 显示 屏 上 出 现 一 个 点 , 这 个 点 代表 远 处 有 一 架 飞 机 的 可 能 性 有 多 大 ? 

用 更 确切 的 话说 , 给 定 一 个 试验 、 与 这 个 试验 相对 应 的 样本 空间 和 概率 律 , 假 
设 我 们 已 经 知道 给 定 的 事件 B 发 生 了 , 而 希望 知道 另 一 个 给 定 的 事件 4 发 生 的 可 
能 性 . 因此 , 我 们 要 构造 一 个 新 的 概率 律 , 它 顾及 了 事件 B 已 经 发 生 的 信息 , 求 出 
任何 事件 4 发 生 的 概率 . 这 个 概率 就 是 给 定 B 发 生 之 下 事件 4 的 条 件 概率 , 记 作 
P(A|B). 

这 个 新 的 条 件 概率 必须 是 合格 的 概率 律 , 即 满足 概率 的 3 条 公理 . 同时 当 原来 
的 概率 律 为 等 概率 模型 时 , 其 相应 的 条 件 概 率 也 应 当 与 直观 相符 合 . 例如 , 在 抛掷 
般 子 的 试验 中 一 共有 6 种 等 概率 的 试验 结果 . 如 果 我 们 已 经 知道 试验 的 结果 是 侦 
数 , 即 2,4,6 这 3 种 结果 之 一 发 生 . 而 这 3 种 结果 发 生 的 可 能 性 应 该 是 相等 的 . 这 
样 , 得 到 

P (试验 结果 是 6 | 试验 结果 是 偶数 ) = 了 


从 这 个 结果 的 推导 过 程 看 出 , 对 于 等 概率 模型 的 情况 , 下 面 的 关于 条 件 概率 的 定义 
是 合适 的 , 即 
事件 4n 的 试验 结果 数 
PWMI3) = 事件 B 的 试验 缚 果 数 “ 
将 这 个 结果 推广 , 我 们 得 到 下 面 的 条 件 概率 之 定义 : 
P(ANB) 
P(B) ， 


其 中 假定 P(B) > 0. 如 果 B 的 概率 为 0 , 相应 的 条 件 概率 是 没有 定义 的 . 总 而 言 
之 , P(4|B) 是 事件 A4n B 的 概率 与 事件 B 的 概率 的 比值 . 
1.3.1 ”条件 概率 是 一 个 概率 律 
对 于 给 定 的 事件 B, 条 件 概率 P(4|B) 形成 了 样本 空间 上 的 一 个 概率 律 , 即 条 
件 概 率 满足 概率 的 3 条 公理 . 非 负 性 是 明显 的 . 又 由 于 
P(ANB) P(B) 


OE) = PB) ~ BB)™ 


P(A| B) = 
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说 明 归 一 化 公理 也 是 满足 的 . 现在 验证 可 加 性 . 设 4A! 和 4s 是 任意 两 个 不 相 容 的 
事件 ， 


P(A1U 4z|B) = SD 
PE) 
_ P(A1NB)+P(Ah2 NB) 
PE 
_ P(A41MB)  P(42N 8B) 
RGB) P(B) 
= P(A1lB) + P(A2|B), 


此 处 第 三 个 等 式 利 用 了 事件 41nB 和 4snB 的 不 相 容 性 和 无 条 件 概率 的 可 加 性 . 
关于 可 数 个 互 不 相 容 的 事件 的 可 加 性 公理 的 验证 是 类 似 的 . 

由 于 我 们 已 经 证 实 了 条 件 概率 是 一 个 合格 的 概率 律 , 所 有 关于 概率 律 的 性 质 对 
于 条 件 概率 都 是 成 立 的 . 例如 将 P(A UC) < P(A4) +P(C) 转变 成 条 件 概率 的 性 质 ， 
变 成 


P(AUCIB) < P(A|B) + P(CIB). 
注意 到 P(B|B) = P(B)/P(B) = 1, 条 件 概 率 完 全 集中 在 B 上 , 这样 , 我 们 也 可 以 将 
B 以 外 的 结果 排除 掉 , 并 将 B 看 成 新 的 样本 空间 . 

现在 将 条 件 概率 的 性 质 加 以 总 结 . 


条 件 概率 的 性 质 
。 设 事 件 B 满足 P(B) > 0, 则 给 定 BB 之 下 , 事件 4 的 条 件 概 率 由 下 式 给 出 


P(ANB) 


P(AIB) = pep 


这 个 条 件 概率 在 同一 个 样本 空间 Q 上 给 出 了 一 个 新 的 (条 件 ) 概率 律 . 凡 
是 现 有 的 概率 律 的 所 有 性 质 对 这 个 条 件 概 率 都 是 适用 的 . 

。 由 于 条 件 概率 所 关心 的 事件 都 是 事件 B 的 子 事 件 , 可 以 把 条 件 概率 看 成 
BB 上 的 概率 律 , 即 把 事件 B 看 成 全 空间 或 必然 事件 . 

。 当 试 验 的 Q 为 有 限 集 , 并 且 所 有 试验 结果 为 等 可 能 的 情况 下 , 条 件 概率 律 
可 由 下 式 给 出 


事件 4m B 的 试验 结果 数 
?45) = 一 重任 B 的 试验 结果 数 “， 
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例 1.6 在 连续 三 次 抛掷 一 个 两 面 均匀 的 硬币 的 试验 中 , 我 们 希望 找到 P(4|B), 其 
中 4 和 B 由 下 式 给 出 


4 = {正面 出 现 的 次 数 多 于 反面 出 现 的 次 数 }， B = { 第 一 次 抛掷 得 到 正面 }. 
样本 空间 由 下 列 8 个 试验 结果 组 成 : 
0 = {HHH,HHT, HTH, HTT,THH,THT,TTH,TTT]}. 


由 于 硬币 两 面 的 均匀 性 , 可 以 假定 这 8 个 试验 结果 是 等 可 能 的 . 事件 B 由 4 个 试 
验 结果 五 HH,HHT,HTH,HTT 组 成 , 因此 


而 事件 4M B 由 结果 HH, HHT,HTH 组 成 , 其 概率 
P(ANB) = 5 

这 样 , 得 到 

P(ANB) 3/8 3 

P(B) 4/8 4 

由 于 所 有 的 试验 结果 是 等 概率 的 , 我 们 也 可 用 简化 的 算法 计算 P(4|B). 我 们 不 必 

计算 P(B) 和 P(4m B), 而 直接 计算 事件 4n B 和 B 中 的 基本 事件 个 数 (唱和 

于 3 和 4), 相 比 即 得 3/4. 

例 1.7 在 连续 两 次 转动 一 个 均匀 的 具有 4 边 的 般 子 的 试验 中 , 假定 所 有 16 种 

验 结果 是 等 可 能 的 , 分 别 记 X 和 了 为 第 一 次 和 第 二 次 转动 的 结果 . 现在 希望 计算 


条 件 概率 P(A4|B), 其 中 
A= {max(X,Y) = m}, B= {min(X,Y) = 2}, 


而 m = 1,2,3,4. 像 上 一 个 例子 一 样 , 可 以 有 两 种 计算 方法 . 一 种 方法 是 首先 计算 
P(A nn B) 和 P(B), 然后 按 条 件 概 率 的 定义 计算 P(4|B). 而 P(A4NB) 和 P(B) 的 
计算 方法 是 : 数 清楚 这 些 事件 中 的 试验 结果 的 个 数 , 再 除 以 16. 另 一 种 方法 是 直接 
将 4nB 中 的 试验 结果 的 个 数 除 以 B 中 的 试验 结果 的 个 数 ( 见 图 1.8). 口 
例 1.8 有 两 个 设计 团队 , 一 个 比较 稳重 , 记 做 C, 另 一 个 具有 创新 性 , 记 做 NN. 要 
求 他 们 分 别 在 一 个 月 内 做 一 个 新 设计 . 从 过 去 的 经 验 知道 : 

(a) C 成 功 的 概率 为 2/3; 

(b) N 成 功 的 概率 为 1/2; 

(c) 两 个 团队 中 至 少 有 一 个 成 功 的 概率 为 3/4. 

已 知 两 个 团队 中 只 有 一 个 团队 完成 了 任务 . 问 这 个 任务 是 N 完成 的 概率 有 多 
大 ? 


P(A|B) = 
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所 有 结果 是 等 可 能 的 ， 
概率 = 1/16 


2 3 4 


第 一 次 转动 X 


图 1.8 例 1.7 的 图 示 . 试验 的 样本 空间 由 连续 两 次 转动 具有 4 边 的 仍 子 的 所 有 可 能 结果 组 
成 , 刻画 条 件 的 事件 B = {min(X,Y) = 2} 由 5 个 阴影 部 分 的 点 所 代表 的 试验 结果 
组 成 . 事件 4 = {fmax(X,Y) = mj} 与 事件 B 的 相交 部 分 当 m = 3 或 4 的 时 候 , 具 
有 两 个 试验 结果 , 当 m = 2 的 时 候 , 只 有 一 个 试验 结果 , 而 m = 1 的 时 候 没 有 公共 元 
素 . 这 样 , 我 们 得 到 


2/5，m = 3 或 4， 
P({max(X,Y)=m}B)= 41/5, m=2%, 
0， ?70 一 工 . 
现在 共有 4 种 可 能 的 结果 ， 
SS : 双方 成 功 FF : 双方 失败 
SF :0 成 功 , N 失败 FS :NN 成 功 , C 失败 


现在 将 (a), (b) 和 (c) 写成 概率 等 式 


P(SS) + P(SF) = 2, P(SS)+P(FS)=1, P(SS)+P(SF)+P(FS)= 3. 
3 2 4 


P(SS) +P(SF) + P(FS) + P(FF)=1, 


得 到 5 1 1 1 
P(SS) = 5, P(SF)= 7, P(FS)= ,PP(FF)=I. 
所 求 的 条 件 概率 为 
P(FSI{SE, FS}) = -127 = 7 口 
4125 
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1.3.2 ”利用 条 件 概率 定义 概率 模型 


在 为 实验 建立 具有 序 贯 特征 的 概率 模型 的 时 候 , 通常 很 自然 地 首先 确定 条 件 概 
率 , 然后 确定 无 条 件 概率 . 在 这 个 过 程 中 , 经 常 使 用 的 是 条 件 概率 公式 P(L4m B) = 
P(B)P(AIB). 
例 1.9 (雷达 探测 器 ) ”有 一 台 雷 达 探 测 设备 在 工作 , 若 在 茶 区 域 有 一 架 飞 机 , 雷达 
以 99% 的 概率 探测 到 并 报警 . 车 该 地 区 没有 飞机 , 雷达 会 以 10% 的 概率 虚假 报警 . 
现在 假定 一 架 飞 机 以 5% 的 概率 出 现在 该 地 区 . 问 飞 机 没有 出 现在 该 地 区 而 雷达 
虚假 报警 的 概率 有 多 大 ? 飞机 出 现在 该 地 区 而 雷达 没有 探测 到 的 概率 有 多 大 ? 
现在 可 以 用 图 1.9 的 序 贯 树 形 图 表达 一 个 事件 . 记 
4= {飞机 出 现 }, 
B = {雷达 报警 }. 
而 它们 的 补 集 为 
4° = {飞机 不 出 现 }， 
B° = {雷达 未 报警 }. 
相应 的 概率 可 以 在 展示 样本 空间 的 序 贯 树 形 图 1.9 上 得 到 表示 . 每 个 试验 结果 可 用 
树 形 图 的 叶子 表示 , 它 的 概率 等 于 由 叶子 到 根部 的 枝条 上 显示 的 数据 的 乘积 . 所 求 
的 概率 为 
P( 飞 机 不 出 现 、 报警 )=P(A°nB)=P(4°)P(B|4°)=0.95x0.10=0.095,， 


1.9 例 1.9 有 关 雷 达 探 测 的 事件 的 序 贯 树 形 图 表示 
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由 上 例 的 启示 , 我 们 可 以 利用 序 贯 树 形 图 计算 概率 , 其 规则 如 下 . 

(a) 我 们 设立 一 个 序 贯 树 形 图 , 使 得 我 们 所 关心 的 事件 处 于 图 的 末端 (叶子 ), 由 
根 结 点 一 直到 叶子 的 路 径 上 的 每 一 个 结 点 代表 一 个 事件 . 而 我 们 所 关心 的 事件 的 发 
生 是 由 根 结 点 一 直到 叶子 的 一 系列 事件 发 生 的 结果 . 

(b) 在 路 径 的 每 个 分 枝 上 写 上 相应 的 条 件 概率 . 

(c) 叶子 所 代表 的 事件 是 相应 的 分 枝 上 的 条 件 概率 的 乘积 . 

数学 上 可 以 这 样 来 表示 : 事件 4 发 生 的 充 要 条 件 是 一 系列 事件 A1,… , 4 全 
都 发 生 , 即 4 = 4in4an:.…n4n. 4 发生 就 是 先 41 发 生 , 接着 4s 发 生 等 , 正如 
序 贯 树 形 图 上 ”个 结 点 上 的 事件 顺 次 发 生 . 4 发 生 的 概率 由 如 下 规则 给 出 (也 可 
见 图 1.10). 


事件 4in4nm 4 事件 4imn4nmn…n4， 


P(AslANMNA NNA, i) 


1.10 “乘法 规则 的 序 贯 树 形 图 表示 . 事件 4 = MN?_14; 用 一 段 路 径 表 示 , 或 等 价 地 用 这 一 段 
路 径 的 末端 叶子 表示 , 而 路 径 上 的 每 段 树枝 表示 相应 的 事件 4:,…… , 4 在 树枝 的 
旁边 同时 注 明 相应 的 条 件 概率 . 

路 径 的 末端 相应 于 事件 4 = 4 n 4am…n 4 其 概率 为 由 根部 到 该 点 的 树枝 
上 标示 的 条 件 概率 的 乘积 . 
P(nE14;) = P(AI)P(A2|A1)P(As|A1N A2).…: P(An| NY Ai). 

注意 , 在 图 上 每 一 个 中 间 的 点 也 代表 一 个 事件 , 例如 第 ; + 1 个 结 点 代表 事件 A1 mn 
4an.…n4i. 它们 的 概率 等 于 相应 的 条 件 概 率 的 乘积 , 这 些 乘积 因 子 都 已 在 相应 的 
树枝 上 方 列 明 . 例如 , 事件 41 mn 42 n 4s 相应 于 图 上 的 第 4 个 结 点 , 其 概率 为 


P(A1N A2N As3) = P(A1)P(A2|A1)P(As|A1N A2) 


乘法 规则 
假定 所 有 涉及 的 条 件 概率 都 是 正 的 , 我 们 有 


P(NM?_1A;) 一 P(Ai)P(A2|A1)P(As|A1 Nn 42) 本 P(An| Me Ai;) 


乘法 规则 可 从 下 式 得 到 证 实 : 由 下 列 恒等式 


P(A2NA1) P(4an4in4s)  P(ne 14i) 
卫 2 A; 一 一 ~ --. 一 ~ _ ~ ~-... 1 一 1 . 
(nz ) P(Ai) P(A1) P(Ai 让 A2) P(N As) 
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再 利用 条 件 概率 的 定义 , 上 式 右 端 变 成 
P(A1)P(Az|A1)P(As|Ai Nn 42) … P(A Mn A;). 


对 于 两 个 事件 41 和 hs 的 情况 , 乘法 规则 就 是 条 件 概率 的 定义 . 

例 1.10 ”从 52 张 扑 克 牌 中 连续 无 放 回 地 抽取 3 张 牌 . 我 们 希望 求 出 3 张 牌 中 没 
有 红 桃 的 概率 . 我 们 假定 , 在 抽取 的 时 候 , 一 堆 牌 中 的 每 一 张 牌 都 是 等 可 能 地 被 抽 
取 的 . 根据 对 称 性 , 52 张 牌 中 任意 3 张 牌 的 组 合 被 抽取 的 可 能 性 都 是 相同 的 . 一 个 
想法 简单 但 是 计算 麻烦 的 方法 是 : 数 清楚 不 含 红 桃 的 3 张 牌 的 可 能 组 数 , 再 除 以 所 
有 3 张 牌 的 可 能 组 数 . 现在 利用 试验 的 序 贯 树 形 图 表示 法 以 及 乘法 规则 进行 计算 
( 见 图 1.11). 


1.11 例 1.10 中 抽取 3 张 扑 克 牌 的 试验 的 序 贯 树 形 图 表示 
定义 
= {第 i 张 牌 不 是 红 桃 })， i = 1,2,3. 
现在 利用 乘法 规则 
P(A1 N As nN 43) 一 P(Ai)P(As|A1)P(As|A1 门 42)， 

计算 3 张 牌 中 没有 红 桃 的 概率 P(4: n 4 n hs). 由 于 52 张 牌 中 有 39 张 不 是 红 桃 ， 
我 们 得 到 39 

P(41) = 2: 


由 于 第 一 次 抽出 一 张 不 是 红 桃 , 剩 下 51 和 有 38 张 不 是 红 桃 , 因此 
P(A2|A41) = 一 
最 后 , 由 于 前 面 两 张 不 是 红 桃 , 剩 下 50 六 有 中 有 37 张 不 是 红 桃 , 这 样 


37 
P(As|lA1 门 4a2) 一 50: 
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这 些 条 件 概率 列 于 序 贯 树 形 图 (图 1.11) 的 相应 树枝 的 上 方 . 现在 只 需 将 路 径 上 的 
(条 件 ) 概率 相 乘 , 得 到 
P(A1N A2N As) 一 三， 于 ， 了 
注意 , 由 于 在 序 贯 树 形 图 上 已 经 标明 了 许多 (条 件 ) 概率 , 其 他 的 一 些 事件 也 可 
以 相应 地 计算 . 例如 


P( 第 一 张 不 是 红 桃 , 第 二 张 牌 是 红 桃 ) = 池 .二 
P( 第 一 、 第 二 两 张 不 是 红 桃 , 第 三 张 牌 是 红 桃 ) = 35 . 5. 节 . 口 


例 1.11 一 个 班 由 4 个 研究 生 和 12 个 本 科 生 组 成 , 随机 地 将 这 16 人 分 成 4 个 4 
人 组 . 问 每 个 组 分 得 一 个 研究 生 的 概率 有 多 大 ? 在 这 个 问题 中 , 什么 是 随机 地 分 组 
呢 ? 可 以 将 分 组 问题 看 成 随机 地 选 位 子 (不 妨 将 位 子 s1,… ,sa 看 成 第 一 组 , 而 将 
位 子 ss,… ,ss 看 成 第 二 组 , 等 等 ), 16 个 位 子 中 每 个 人 都 有 相同 的 可 能 性 选择 任意 
一 个 位 子 , 当 若 干 个 位 子 被 某 些 学 生 选 定 以 后 , 没有 选 定位 子 的 同学 以 完全 平等 的 
资格 去 选择 剩 下 的 位 子 ， 下 面 基于 图 1.12 所 示 的 序 贯 树 形 图 , 使 用 乘法 规则 来 计 
算 所 需 概率 . 现在 设 4 个 研究 生 的 代号 为 1, 2, 3, 4. 考虑 事件 


41 = {学 生 1 和 2 分 在 不 同 的 组 }， 
Ah2 = {学 生 1, 2 和 3 分 在 不 同 的 组 }， 
43 = { 学 生 1, 2, 3 和 4 分 在 不 同 的 组 }. 
我 们 所 求 的 概率 为 P(4s). 利用 乘法 规则 : 
P(As) = P(A1N AzN As) = P(AI)P(A2|A1)P(As|Ai nN A2). 


现在 不 妨 设 学 生 1 已 经 选 定 了 位 子 , 在 剩余 的 15 个 位 子 中 只 有 12 个 位 子 与 学 生 
1 分 在 不 同 的 组 内 . 显然 学 生 2 与 学 生 1 分 在 不 同 组 内 的 可 能 性 为 12/15, 即 
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类 似 地 , 当 学 生 1 和 学 生 2 已 经 分 在 2 个 不 同 组 以 后 , 学 生 3 只 有 选择 剩 下 14 个 
位 子 中 的 8 个 位 子 , 才能 与 1, 2 处 于 不 同 的 组 . 这 说 明 

P(A2|A1) = 也， 
当 学 生 1, 2 和 3 被 分 派 在 不 同 组 的 条 件 下 , 学 生 4 只 有 在 13 个 位 子 中 选择 其 中 的 
4 个 位 子 之 一 , 才能 与 他 们 处 于 不 同 的 组 内 . 这 样 


4 
P(As|A1 站 42) 一 13 
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将 3 个 概率 相 乘 , 得 到 所 求 的 概率 为 


15 14 13- 
反映 这 种 试验 的 序 贯 树 形 图 见 图 1.12. 口 


图 1.12 例 1.11 中 学 生 分 组 试验 的 序 贯 树 形 图 表示 


例 1.12 (蒙特 霍 问题 , 也 称 三 门 问题 ) ”这 是 美国 有 奖 游戏 节目 中 的 一 个 经 常 出 现 
的 智力 测验 问题 . 你 站 在 3 个 封闭 的 门 前 , 其 中 一 个 门 的 门 后 有 一 个 奖品 . 当然 , 奖 
品 在 哪 一 个 门 后 是 完全 随机 的 . 当 你 选 定 一 个 门 以 后 , 你 的 朋友 打开 其 余 两 扇 门 中 
的 一 扇 空门 , 显示 门 后 没有 奖品 . 此 时 你 可 以 有 两 种 选择 , 保持 原来 的 选择 , 或 改选 
另 一 扇 没 有 被 打开 的 门 . 当 你 作出 最 后 选择 以 后 , 打开 的 门 后 有 奖品 , 这 个 奖品 就 
归 你 的 了 . 现在 有 3 种 策略 : 

(a) 坚持 原来 的 选择 ; 

(b) 改选 另 一 扇 没 有 被 打开 的 门 ; 

(c) 你 首先 选择 1 号 门 , 当 你 的 朋友 打开 的 是 2 号 空门 , 你 不 改变 主意 . 当 你 的 
朋友 打开 的 是 3 号 空门 你 改变 主意 , 选择 2 号 门 . 

最 好 的 策略 是 什么 呢 ? 现在 计算 在 各 种 策略 之 下 赢得 奖品 的 概率 . 

在 策略 (a) 之 下 , 你 的 初始 选择 会 决定 你 的 输赢 . 由 于 奖品 的 位 置 是 随机 地 确 
定 的 , 你 得 奖 的 概率 只 能 是 1/3. 

在 策略 (b) 之 下 , 如 果 奖 品 的 位 置 在 你 原来 指定 的 门 后 (概率 为 1/3), 由 于 你 
改变 了 主意 , 因而 失去 了 获奖 的 机 会 .如果 奖品 的 位 置 不 在 你 原来 指定 的 门 后 ( 概 
率 2/3), 而 你 的 朋友 又 将 没有 奖品 的 那 一 扇 门 打开 , 当 你 改变 选择 的 时 候 , 你 改变 
选择 后 所 指定 的 门 后 一 定 有 奖品 . 所 以 你 获奖 的 概率 为 2/3. (b) 比 (a) 好 . 

在 策略 (c) 之 下 , 由 于 提供 的 信息 不 够 充分 , 还 不 能 确定 你 赢得 奖品 的 概率 . 答 
案 依赖 于 你 的 朋友 打开 空门 的 方式 . 现在 讨论 两 种 情况 . 

第 一 种 情况 是 : 当 奖 品 的 位 置 是 在 1 号 门 后 , 假定 你 的 朋友 总 是 打开 2 号 空门 
( 当 奖 品 是 在 2 号 或 3 号 门 后 的 时 候 , 你 的 朋友 没有 选择 的 余地 ). 现在 假定 奖品 是 
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在 1 号 门 后 (概率 为 1/3), 你 的 朋友 打开 2 号 门 , 你 不 改 主意 , 你 得 到 奖品 ， 当 奖 
品 在 2 号 门 后 面 的 时 候 (概率 为 1/3), 你 的 朋友 打开 3 号 空门 , 你 改变 主意 , 你 也 
得 到 奖品 ， 当 奖品 在 3 号 门 后 面 的 时 候 (概率 为 1/3), 你 的 朋友 打开 2 号 空门 , 你 
不 改变 主意 , 你 就 失去 了 得 奖 的 机 会 . 这 样 , 你 获奖 的 概率 为 2/3. 说 明 在 这 种 情况 
下 , 策略 (c) 与 策略 (b) 一 样 好 . 

第 二 种 情况 是 : 假定 奖品 是 在 1 号 门 后 , 你 的 朋友 随机 地 打开 2 号 门 或 3 号 
门 (概率 各 为 1/2). 当 奖 品 在 1 号 门 后 的 情况 下 (概率 为 1/3), 你 的 朋友 打开 2 号 
门 , 此 时 按 你 的 策略 , 你 不 改 主意 , 得 到 了 奖品 (概率 1/6). 但 是 , 如 果 你 的 朋友 打 
开 的 是 3 号 空门 , 此 时 你 改变 了 主意 , 失去 了 得 奖 的 机 会 . 如 果 奖 品 是 在 2 号 门 后 
(概率 1/3), 你 的 朋友 打开 3 号 空门 , 按 你 的 策略 , 你 改变 主意 , 你 就 赢得 奖品 ， 如 
果 奖 品 是 在 3 号 门 后 (概率 1/3), 你 的 朋友 打开 2 号 空门 , 按 你 的 策略 你 不 改变 主 
意 , 你 就 失去 奖品 . 综合 起 来 , 在 你 的 朋友 这 种 开门 策略 之 下 , 你 赢得 奖品 的 概率 为 
1/6 + 1/3 = 1/2. 这 时 候 , 策略 (c) 比 策略 (b) 差 . 口 


1.4 ”全 概率 定理 和 贝 叶 斯 准则 


本 节 中 我 们 将 讨论 条 件 概 率 的 某 些 应 用 . 我 们 首先 引入 一 个 计算 事件 概率 的 
定理 . 


全 概率 定理 

设 A1, 42,.… , An 是 一 组 互 不 相 容 的 事件 , 它 形成 样本 空间 的 一 个 分 割 (每 一 
个 试验 结果 必定 使 得 其 中 一 个 事件 发 生 ! ). 又 假定 对 每 一 个 i, P(Ah;) > 0. 则 对 
于 任何 事件 B, 下 列 公式 成 立 


P(B)= P(A1NB)+:…+P(4, NB) 
=P(A)P(BIA1) + .+P(An)P(B|A»,). 


图 1.13 形象 化 地 展示 了 全 概率 定理 的 内 容 并 给 出 了 证 明 . 直观 上 , 将 样本 空 
间 分 割 成 若干 事件 4; 的 并 (41,… ,4 形成 样本 空间 的 一 个 分 割 ! ), 然后 任意 事 
件 B 的 概率 等 于 事件 B 在 4; 发 生 的 情况 下 的 条 件 概率 的 加 权 平 均 , 而 权 数 刚好 
等 于 这 些 事件 4; 的 无 条 件 概率 . 这 条 定理 的 一 个 主要 应 用 是 计算 事件 B 的 概率 . 
直接 计算 事件 B 的 概率 有 点 难度 , 但 是 若 条 件 概率 P(B|4;) 是 已 知 的 或 是 很 容易 
推导 计算 时 , 全 概 定理 就 成 为 了 计算 P(B) 的 有 力 工具 . 应 用 这 条 定理 的 关键 是 找 
到 合适 的 分 割 41,… ,4 而 合适 的 分 割 又 与 问题 的 实际 背景 有 关 ， 
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图 1.13 全 概率 定理 的 形象 化 展示 和 证 明 . 由 于 事件 4A1, 4>，… , A 形成 样本 空间 的 一 个 分 
割 , 事件 B 可 以 分 解 成 不 相交 的 ”个 事件 的 并 , 即 


B=(ANB)U...U (An NB). 
利用 可 加 公理 , 得 到 
P(B)=P(A1NB)+...+P(An NB). 
利用 条 件 概率 之 定义 , 我 们 得 到 
P(AiNB)= P(4i)P(B|4;). 
将 上 式 代 入 前 一 式 中 得 到 
P(B) = P(A1)P(BIA1) +:….+P(An)P(B|A;,). 


我 们 也 可 以 用 等 价 的 序 贯 树 形 图 来 说 明 全 概率 定理 ( 右 图 ). 叶子 4; nn B 的 概 
率 等 于 由 叶子 到 根部 上 的 概率 的 乘积 P(Ai;)P(B|Ai). 而 事件 B 由 图 上 显示 的 3 个 
叶子 组 成 , 将 它们 的 概率 相 加 就 得 到 P(B) 


例 1.13 你 参加 一 个 棋 类 比赛 , 其 中 50% 是 一 类 棋 手 , 你 赢 他 们 的 概率 为 0.3; 25% 
是 二 类 棋 手 , 你 赢 他 们 的 概率 是 0.4; 剩 下 的 是 三 类 棋 手 , 你 赢 他 们 的 概率 是 0.5. 从 
他 们 中 间 随 机 地 选 一 位 棋 手 与 你 比赛 , 你 胜算 的 概率 有 多 大 ? 

记 h; 表示 与 你 下 棋 的 棋 手 的 类 别 . 依 题 意 


P(A1) = 0.5， P(42) = 0.25， P(As) = 0.25. 
记 B 为 你 赢得 比赛 的 事件 . 我 们 有 
P(B|A1)=0.3, P(B|A2) = 0.4， P(B|A3) = 0.5. 
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这 样 , 利用 全 概率 定理 , 你 在 比赛 中 胜出 的 概率 为 


P(B)= P(AI)P(B|IA1) + P(A2)P(B|A2) + P(A3)P(B|A;) 
一 0.5.0.3 十 0.25.0.4 十 0.25.0.5 
一 0.375. 口 


例 1.14 你 转动 一 个 均匀 的 有 4 个 边 的 骨 子 . 如 果 得 到 1 或 2, 你 可 以 再 转动 一 
次 , 否则 就 停止 转动 . 你 转动 得 到 的 点 数 总 和 至 少 为 4 的 概率 有 多 大 ? 

记 4; 为 第 一 次 转动 均匀 山 子 后 所 得 到 的 点 数 为 i 的 事件 . 注意 , 对 每 一 个 i 
P(4;) = 1/4. 记 B 为 转动 得 到 的 点 数 总 和 至 少 为 4 的 事件 . 在 4; 发 生 的 条 件 下 ， 
只 有 第 二 次 转动 得 到 3 或 4, 总 点 数 才能 至 少 为 4, 这 样 , 事件 B 的 条 件 概率 为 1/2. 
类 似 地 , 如 果 第 一 次 转动 时 4s 发 生 , 只 有 当 第 二 次 转动 得 到 2, 3 或 4 时 , 事件 B 
才 发 生 , 相应 的 条 件 概率 为 3/4. 如 果 第 一 次 转动 时 4s 发 生 , 此 时 不 容许 转动 第 二 
次 . 因此 在 这 种 情况 下 得 到 的 点 数 总 和 在 4 以 下 .? 因 此 
1 
2， 
利用 全 概率 定理 , 得 到 

PB)= 3 3+4 3+ 7411-6 

在 具有 序 贯 特征 的 试验 中 , 可 以 多 次 重复 地 利用 全 概率 定理 进行 概率 计算 . 下 

面 是 一 个 例子 . 
例 1.15 爱丽 丝 在 上 一 门 概率 课 . 在 每 周 周末 的 时 候 , 她 可 能 跟 上 课程 或 跟 不 上 课 
程 . 如 果 她 在 某 一 周 是 跟 上 课程 的 , 那么 她 在 下 周 跟 上 课程 的 概率 为 0.8( 下 周 跟 不 
上 课程 的 概率 为 0.2). 然而 , 如果 她 在 某 一 周 没有 跟 上 课程 , 那么 她 在 下 周 跟 上 课 
程 的 概率 变 为 0.4( 下 周 跟 不 上 课程 的 概率 为 0.6). 现在 假定 , 在 第 一 周 上 课 以 前 认 
为 她 是 能 够 跟 上 课程 的 . 经 过 3 周 的 学 习 , 她 能 够 跟 上 课程 的 概率 有 多 大 ? 

令 U; 和 Bi 分 别 表示 经 过 i 周 学 习 后 跟 上 和 跟 不 上 课程 的 事件 . 按照 全 概率 
定理 , P(Us) 可 由 下 式 给 出 


P(Us) = P(U2)P(Us|U2) +P(B2z)P(Ds|52) = P(U2) .0.8 + P(B2) .0.4. 
对 十 P(U2) 和 P(B?), 又 可 以 利用 全 概率 定理 


P(U2) = P(Ui)P(UV2|U;1) + P(BI)P(V2|B1) = P(UV1) :0.8 + P(B1):0.4, 
P(B2) = P(U1)P(B2|01)+ P(B1)P(B2|B1) = P(U1):0.2+ P(B1) .0.6. 


P(BIA1) =3, P(BIA2) = 2, P(B|As)=0, P(BIAs) =1. 


1 口 


@ 如 果 第 一 次 转动 时 44 发 生 , 虽然 不 容许 第 二 次 转动 般 子 , 但 是 你 得 到 的 点 数 总 和 已 为 4. 
一 一 译 者 注 
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最 后 , 由 于 爱丽 丝 在 刚刚 开始 上 课 的 时 候 , 是 能 够 跟 上 课程 的 , 我 们 有 
P(D) = 0.8， P(B1) = 0.2. 
从 前 面 3 个 方程 式 解 得 
P(U2) = 0.8. 0.8 + 0.2.0.4= 0.72， 
P(B2) = 0.8 :0.2 + 0.2.0.6 = 0.28, 


再 利用 关于 P(U3) 的 等 式 , 得 到 
P(Us) = 0.73 .0.8 + 0.28. 0.4 = 0.688. 

我 们 也 可 以 为 计算 P(U3) 构造 一 个 试验 的 序 贯 树 形 图 . 将 随机 事件 Us 进行 分 
解 , 利用 概率 论 的 乘法 与 加 法 规则 计算 P(Us). 然而 , 有 时 候 , 基于 全 概率 定理 的 计 
算 方 法 更 加 方便 . 例如 , 我 们 希望 计算 经 过 20 周 的 学 习 以 后 , 爱丽 丝 能 够 跟 上 课程 
的 概率 P(Uzo). 此 时 , 按照 序 贯 树 形 图 进行 计算 十 分 烦琐 , 因为 树 形 图 有 20 层 , 有 
220 个 树叶 . 另 一 方面 , 利用 全 概率 定理 , 得 到 递 推 公式 

P(Ui41) 一 P(U:;) .0.8 十 P(B;) ‘0.4, 


加 上 初始 条 件 P(D1) = 0.8, P(B1) = 0.2 后 , 那么 在 计算 机 上 计算 是 十 分 简便 的 ， 口 
推理 和 贝 时 斯 准则 


全 概率 定理 是 与 著名 的 贝 叶 斯 准则 联系 在 一 起 的 . 贝 叶 斯 准则 将 形 如 P(4|B) 
的 条 件 概率 与 形 如 P(B|A4) 的 条 件 概 率 联系 了 起 来 . 


贝 叶 斯 准则 
设 41, A2,… ,An 是 一 组 互 不 相 容 的 事件 , 它 形成 样本 空间 的 一 个 分 割 (每 一 
个 试验 结果 必定 使 得 其 中 一 个 事件 发 生 ! ). 又 假定 对 每 一 个 i, P(Ai;) > 0. 则 对 
于 任何 事件 B, 只 要 它 满足 P(B) > 0, 下 列 公式 成 立 
P(Ai)P(B|A:) 
P(B) 
P(Ai)P(B|Ai;) 
P(A)P(B|A1) + +P(An)P(B|An) 


P(Ai:|B) = 


为 证 明 贝 叶 斯 准则 , 只 需 注意 到 P(4i;)P(B|4i) 与 P(L4ilB)P(B) 是 相等 的 , 它 
们 都 等 于 P(4; nm B), 这 样 得 到 了 第 一 个 等 式 . 至 于 第 二 个 等 式 , 只 需 对 P(B) 利用 
全 概率 公式 即 可 . 
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贝 叶 斯 准则 还 可 以 用 来 进行 因果 推理 . 有 许多 “原因 ”可 以 造成 某 一 “结果 ”. 
现在 设 我 们 观察 到 某 一 结果 , 希望 推断 造成 这 个 结果 出 现 的 “原因 ”. 现在 设 事件 
41,… ,hn 是 原因 , 而 B 代表 由 原因 引起 的 结果 . P(B|A;) 表示 在 因果 模型 中 由 
“原因 ”4; 造成 结果 B 出 现 的 概率 ( 见 图 1.14). 当 观 察 到 结果 B 的 时 候 , 我 们 希 
望 反 推 结 果 B 是 由 原因 4; 造成 的 概率 P(Ai|B). P(4i;|B) 为 由 于 代表 新 近 得 到 的 
信息 B 之 后 4; 出 现 的 概率 , 称 之 为 后 验 概率 , 而 原来 的 P(4;) 就 称 为 先 验 概率 . 


原因 3: 
其 他 原因 


原因 1: 
恶性 肿瘤 


原因 2: 
良性 肿瘤 


图 1.14 一 个 蕴涵 于 贝 叶 斯 公式 中 的 推论 的 例子 ,我们 在 某 病 人 X 光 片 中 发 现 一 个 阴影 ( 事 
件 B, 代表 “结果 ”). 我 们 希望 对 造成 这 种 结果 的 3 个 原因 进行 分 析 . 这 3 个 原因 
彼此 不 相 容 , 并 且 造 成 这 个 结果 的 原因 一 定 是 三 者 之 一 : 原因 1( 事件 41) 是 恶性 肿 
瘤 , 原因 2( 事件 4?) 是 良性 肿瘤 , 原因 3( 事件 4s) 是 肿瘤 外 的 其 他 原因 . 假定 我 
们 已 经 知道 P(Ai) 和 P(B|Ai),i = 1,2,3. 现在 我 们 已 经 发 现 了 阴影 (事件 B 发 生 )， 
利用 贝 叶 斯 公式 , 这 些 原因 的 条 件 概率 为 

P(Ai)P(B|A;) 


PC) BOMBUBIA) + P(A2) PBI AS) + PCA)PTBLAS) 


，¢ 二 1,2,3. 


在 右 图 给 出 了 一 个 序 贯 树 形 图 ， 可 用 序 贯 树 形 图 给 出 条 件 概率 计算 的 另 一 种 等 价 的 
解释 . 图 中 第 一 个 深 永 的 叶子 表示 恶性 肿瘤 并 出 现 阴影 , 其 概率 为 P(A1 mB), 且 所 
有 深 灰 的 叶子 表示 片子 中 出 现 阴 影 , 其 概率 为 P(B). 而 由 恶性 肿瘤 造成 阴影 的 条 件 
概率 P(A1|B) 是 两 个 概率 相 除 的 结果 


例 1.16 现在 回 到 雷达 探测 器 的 例 1.9 和 图 1.9. 记 
4 = {飞机 出 现 }， 
B = {雷达 报警 }. 
例 1.9 中 给 出 的 条 件 为 
P(4) = 0.05， P(BI4) = 0.99， P(B|4c) = 0.1. 
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在 贝 叶 斯 准则 中 令 41 = 4 和 4s = 4e, 得 到 
P( 飞 机 出 现 | 雷达 报警 ) = P(A4|B) 
P(4)P(BI4) 
P(A)P(BIA) 十 P(4e)P(BI4c) 
0.05 . 0.99 
~ 0.05.0.99 + 0.95.0.1 
~ 0.342 6. 口 


例 1.17 现在 回 到 例 1.13 的 棋 类 比赛 问题 . 此 处 4; 表示 你 与 i 类 棋 手 相遇 的 事 
件 . 由 例 中 给 出 的 条 件 知 ， 


P(A1) = 0.5， P(A2) = 0.25， P(43) = 0.25. 
记 B 表示 你 赢得 比赛 的 事件 , 你 胜出 的 概率 为 
P(B|A1) = 0.3， P(B|A2) = 0.4， P(B|As) = 0.5. 


现在 假定 你 已 经 得 胜 , 问 你 的 对 手 为 一 类 棋 手 的 概率 P(41|8) 有 多 大 ? 
利用 贝 叶 斯 准则 得 ， 


P(A1IB) = 


P(A1)P(BIA1) 
P(AI)P(BIA1) + P(A2)P(BIA2) + P(As)P(B|A;) 
0.5 :0.3 
0.5.0.3 十 0.25.0.4 十 0.25.0.5 
= 0.4. 口 


例 1.18 ( 假 阳 性 之 迷 ) ” 设 对 于 某 种 少见 的 疾病 的 检 出 率 为 0.95: 如 果 一 个 被 检 的 
人 有 某 种 疾病 , 其 检查 结果 为 阳性 的 概率 为 0.95; 如 果 该 人 没有 这 种 疾病 , 其 检查 
结果 为 阴性 的 概率 是 0.95. 现在 假定 某 一 人 群 中 患 有 这 种 病 的 概率 为 0.001, 并 从 
这 个 总 体 中 随机 地 抽取 一 个 人 进行 检测 , 检查 结果 为 阳性 . 现在 问 这 个 人 患 这 种 病 
的 概率 有 多 大 ? 
记 4 为 这 个 人 有 这 种 疾病 , B 为 经 检验 这 个 人 为 阳性 . 利用 贝 叶 斯 准则 ， 
P(A)P(BIA 
P(AIB) = Pp a 
_ 0.001 . 0.95 
0.001 : 0.95 + 0.999 . 0.05 
= 0.018 7. 


尽管 检验 方法 非常 精确 , 一 个 经 检测 为 阳性 的 人 仍然 不 大 可 能 真正 患 有 这 种 疾病 
( 患 有 该 疾病 的 概率 小 于 2%). 根据 《经 济 学 人 》(The Economist) 1999 年 2 月 20 
日 的 报道 , 在 一 家 美国 著名 的 大 医院 中 80% 的 受 访 者 不 知道 这 类 问题 的 正确 答案 ， 
而 大 部 分 人 回答 , 这 个 经 检测 为 阳性 的 人 患 病 的 概率 为 0.95! 口 
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1.5 独 立 性 


1.4 节 中 我 们 引入 了 条 件 概 率 P(A4|B) 的 概念 . 这 个 条 件 概 率 刻画 了 事件 B 的 
发 生 给 事件 4 带 来 的 信息 . 一 个 有 兴趣 的 特殊 情况 是 事件 B 的 发 生 并 没有 给 事件 
4 带 来 新 的 信息 , 它 没有 改变 事件 4 发 生 的 概率 , 即 


P(AIB) = P(A). 


在 上 述 等 式 成 立 的 情况 下 , 我 们 称 事件 4 是 独立 于 事件 B 的 . 注意 , 由 条 件 概 率 
的 定义 可 知 PL4IB) = P(4mB)/P(B), 上 式 等 价 于 


P(ANB) = P(A)P(B). 


我 们 将 后 者 作为 事件 4 和 事件 B 相互 独立 的 正式 定义 , 其 原因 是 后 者 包括 了 
P(B) = 0 的 情况 , 而 当 P(B) = 0 的 时 候 , P(4|B) 是 没有 定义 的 ， 在 这 个 关系 
中 4 和 B 具有 对 称 的 地 位 . 因此 4 独立 于 B 蕴涵 着 B 独立 于 4. 这 样 我 们 可 以 
称 4 和 B 是 相互 独立 的 , 或 A 和 B 是 相互 独立 的 事件 . 

人 们 容易 从 直观 判定 独立 性 . 例如 , 若 它们 分 别 是 在 两 个 不 同 的 并 且 没 有 相互 
作用 的 物理 过 程 的 控制 下 发 生 的 事件 ,我 们 就 可 以 判定 它们 相互 独立 ， 另 一 方面 ， 
事件 之 间 的 独立 性 不 能 直观 地 从 样本 空间 中 的 事件 看 出 来 . 通常 认为 , 若 两 个 事件 
互 不 相 容 , 就 可 以 判定 它们 相互 独立 , 事实 上 , 恰巧 相反 , 若 事件 4 和 事件 B 互 不 
相 容 , 并 且 P(4) > 0 和 P(B) > 0 成 立 , 则 它们 永远 不 会 相互 独立 , 因为 4nB = &%， 
从 而 P(4N B) =0 关 P(4)P(B). 例如 , 4 和 4e 在 P(A4) e (0,1) 的 情况 下 是 不 独 
立 的 (除非 P(4) = 0, 或 P(4) = 1), 这 是 因为 4 发 生 可 以 确切 地 告诉 你 4e 一 定 
不 会 发 生 , 4 的 发 生 与 否 的 确 会 给 事件 4° 的 发 生 与 否 带 来 信息 . 

例 1.19 考虑 连续 两 次 转动 一 个 具有 4 边 的 对 称 的 骨 子 , 其 16 种 可 能 的 试验 结 
果 是 等 概率 的 , 每 个 试验 结果 的 概率 为 1/16. 
(a) 事件 


hi = {第 一 次 转动 后 得 订 ， B; = {第 二 次 转动 后 得 人 
是 否 相 互 独立 ? 我 们 有 


P(Ain Bi) = 了 (两 次 转动 的 结果 是 (i,7)) = 十， 
PC - 4 中 的 试验 结果 数 _ 4 

?总 的 试验 结果 数 一 16 
Bj 中 的 试验 结果 数 。 4 


(9 “总 的 试验 结果 数 ”16- 
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由 于 P(L4in Bj) = P(A4;)P(B;), 可 知 hi 与 B; 是 相互 独立 的 . 在 两 次 转动 般 子 的 
试验 中 , 离散 的 均匀 概率 律 (等 概率 模型 ) 蕴涵 着 两 次 转动 的 独立 性 . 
(b) 事件 


A = {第 一 次 转动 后 得 1}， B = {两 次 转动 的 总 和 为 5} 
是 否 相 互 独 立 ? 这 个 问题 的 答案 不 是 很 明显 的 . 我 们 有 


P(An B) 了 (两 次 转动 的 结果 为 (1,4) = 走 ， 


pL4) _ 事件 4 中 所 信 的 试验 结果 数 4 
(= 一 所 有 可 能 的 结果 数 ”16 


事件 B 由 试验 结果 (1,4), (2, 3), (3,2) 和 (4,1) 组 成 , 因此 


Pp(B) = 事件 B 中 所 含 的 试验 结果 数 _ 4 
所 有 可 能 的 结果 数 16 
这 样 , PL4nB) =P(4)P(B), 即 4 和 B 相互 独立 . 
(c) 事件 


4 = { 两 次 转动 的 最 大 数 为 2}， Bi = {两 次 转动 的 最 小 数 为 2} 


是 否 相互 独立 ? 直观 上 看 这 两 个 事件 是 不 独立 的 , 因为 两 次 转动 的 最 小 数列 涵 着 两 
次 转动 的 最 大 数 的 信息 . 例如 , 如 果 最 小 数 为 2, 最 大 数 不 可 能 为 1. 现在 用 定义 证 
明 它 们 不 独立 . 我 们 有 


P(An B) =P( 两 次 转动 的 结果 为 (2,2)) 二， 


Pp(A) = 4 中 的 试验 结果 数 _ 3 
总 的 试验 结果 数 。 16° 
了 3 中 的 试验 结果 数 ”5 
总 的 试验 结果 数 。 16 
得 到 P(4)P(B) = 15/(16)?. P(A4NnB) 关 P(A4)P(B), 故 它们 并 不 独立 . 口 
最 后 , 我 们 要 指出 , 若 事件 4 和 事件 B 相互 独立 , 那么 B 发 生 , 不 会 对 4 的 
发 生 与 否 提 供 任何 信息 . 同样 , 凭 直观 想象 , B 不 发 生 , 也 不 会 对 4 的 概率 提供 任 
何 信息 . 事实 上 , 我 们 可 以 证 明 , 若 4 和 B 相互 独立 则 4 和 Be 也 相互 独立 ( 见 本 
章 后 的 习题 ). 


P(B) = 
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1.5.1 ”条件 独立 


前 面 已 经 提 到 在 给 定 某 事件 的 条 件 下 , 诸 事 件 的 条 件 概 率 形成 符合 要 求 的 概率 
律 . 因此 我 们 可 以 讨论 在 条 件 概 率 律 下 的 独立 性 . 特别 地 , 在 给 定 C 之 下 , 若 事 件 
4 和 事件 B 满足 
P(AN BIC) = P(AIC)P(BIO), 


则 称 4 和 B 在 给 定 C 之 下 条 件 独 立 . 为 了 导出 条 件 独 立 的 另 一 个 特征 , 利用 条 件 
概率 的 定义 和 乘法 规则 , 得 到 
P(ANBNMO) 
P(C) 
_ P(C)P(BIC)P(AIB NO) 
P(C) 
=P(BIC)P(A|IB NMO). 


P(ANBIC) = 


比较 前 面 两 组 等 式 的 最 右 端 , 只 要 P(BIC) 关 0, 那么 P(BIC) 这 个 因子 就 可 以 消 掉 ， 
得 到 
P(AIBNC) = P(AIO), 


这 是 条 件 独立 的 另 一 个 等 价 定义 (要 求 P(B|C) # 0), 这 个 等 式 说 明 在 给 定 C 发 生 
的 条 件 之 下 , 进一步 假定 B 也 发 生 , 并 不 影响 事件 4 的 条 件 概率 . 

有 意思 的 是 , 4 和 B 两 个 事件 相互 独立 并 不 包含 条 件 独立 , 反 过 来 也 是 如 此 . 
下 面 请 看 两 个 例子 . 
例 1.20 ”考虑 抛 撕 两 枚 均匀 的 硬币 . 这 个 试验 的 4 种 可 能 结果 都 是 等 可 能 的 . 令 


Hi = { 第 一 枚 硬币 正面 向 上 }， 
= {第 二 枚 硬币 正面 向 上 }， 
D = {两 枚 硬币 的 试验 结果 不 同 }. 


事件 Hl 和 事件 Hs 是 相互 独立 的 . 但 是 


P(HID) = 3 P(H2s|D) = 3 P(Hi nN HalD) =0, 
这 样 , P(H Nn Hz|D) 关 P(|D)P(H2|D), 从 而 五 和 Ho 并 不 条 件 独立 . 口 
这 个 例子 可 以 推广 . 对 于 任何 概率 模型 , 记 4 和 B 是 相互 独立 的 事件 , C 是 
一 个 满足 条 件 P(C) > 0, P(4IC) > 0 和 P(BIC) > 0 的 事件 , 并 且 4nBnc 为 空 
集 . 这 样 , 由 于 P(4nBlC) =0 和 P(A|IC)P(BIC) > 0, 4 和 不 可 能 条 件 独 立 (给 
定 0). 
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例 1.21 有 两 枚 硬币 , 一 枚 蓝 的 , 一 枚 红 的 . 在 抛掷 硬币 之 前 , 先 按 1/2 的 概率 随 
机 地 选 定 一 枚 硬币 ,然后 进行 连续 两 次 独立 地 抛掷 硬币 的 试验 ， 硬 币 是 不 均匀 的 . 
蓝 的 硬币 在 抛 拂 的 时 候 以 0.99 的 概率 正面 向 上 . 而 红 的 那 一 枚 硬币 在 抛掷 的 时 候 
以 0.01 的 概率 正面 向 上 . 

记 B 为 选 定 蓝 色 的 硬币 的 事件 , H; 为 第 i 次 抛 按时 出 现 正 面向 上 ， 当选 定 硬 
币 以 后 , 由 于 我 们 抛掷 硬币 的 时 候 , 两 次 抛 扼 的 结果 不 会 互相 影响 , H， 和 媚 是 相 
互 独立 的 事件 . 这 样 


P(HiN HlB) = P(Hi|B)P(H2|B) = 0.99.0.99. 
男 一 方面 , Hi 和 Hs 并 不 独立 ， 直 观 上 , 当 我 们 知道 第 一 次 抛掷 的 结果 是 正面 向 
上 , 我 们 就 想到 这 是 一 枚 蓝 色 的 硬币 , 此 时 可 以 预料 到 第 二 次 抛掷 硬币 的 结果 也 是 
正面 向 上 .” 数学 上 , 可 如 下 证 明 . 利用 全 概率 定理 , 我 们 得 到 
PE) =P(B)P(H|B) + P(B)P(H|B®) = 了 .0.99 十 二 .0.01= 
由 对 称 性 可 知 P(H2) = 1/2. 但 是 对 于 nHo, 利用 全 概率 定理 得 到 
PUB n H2) = P(B)P(Hi N 到 1B) 二 P(BejP( nm HalB®) 


1 1 1 
二 二.'0.99.0. ~ .0.01.0.01 ~ 二 . 
3 0.99 99 十 5 0.01 .0.01 3 


这 样 P(Hi nn 2) 关 P()P(H2), 即 五 和 582 是 相互 依赖 的 , 即使 在 给 定 B 的 条 
件 下 是 相互 独立 的 . 口 


现在 把 关于 独立 性 的 结论 总 结 一 下 . 


独立 性 
。 两 个 事件 4 和 B 称 为 相互 独立 的 , 如 果 它 们 满足 


P(4n B) = P(A)P(B). 


车 还 满足 P(B) > 0, 则 独立 性 等 价 于 


P(A4|B) = P(A). 


Q@ 因此 两 次 抛 奖 的 结果 是 不 独立 的 . 一 一 译 者 注 
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。 车 4 与 B 相 互 独立 , 则 4 与 Be 也 相互 独立 . 
。 设 事件 C 满足 P(C) > 0, 两 个 事件 4 和 B 称 为 在 给 定 C 的 条 件 下 条 件 
独立 , 如 果 它 们 满足 


P(AN BIC) = P(AIC)P(BIC). 


车 进一步 假定 P(BMC) > 0, 则 4 和 B 在 给 定 C 的 条 件 下 的 条 件 独立 
性 与 下 面 的 条 件 是 等 价 的 


P(AIBNC) = P(AIC). 
。 独立 性 并 不 蔓 涵 条 件 独立 性 , 反之 亦 然 . 


1.5.2 ”一 组 事件 的 独立 性 
两 个 事件 的 相互 独立 性 的 概念 能 够 推广 到 多 个 事件 的 相互 独立 性 . 


几 个 事件 的 相互 独立 性 的 定义 
设 41,… ,An 为 n 个 事件 . 若 它 们 满足 


Pp( Na) = ]]P(4;)， 对 任意 {1,2,… ,nj 的 子 集 8 成 立 . 
YE 


i€ES 


关于 事件 41, 42, hs, 独立 性 条 件 归结 为 下 列 4 个 条 件 : 


P(A1N A2) = P(A1)P(42), 
P(A1NM As) = P(A1)P(As), 
P(A Nn 43) = P(A»)P(A;s), 
P(A1 NM 42 门 43) 一 P(A1)P(A2)P (4 3). 
前 面 3 个 等 式 说 明 任 意 两 个 事件 是 相互 独立 的 , 这 种 性 质 称 为 两 两 独立 . 但 是 第 4 
个 条 件 也 非常 重要 , 它 并 不 是 前 面 3 个 等 式 的 推论 . 反 过 来 , 第 4 个 条 件 也 不 包含 
前 3 个 条 件 . 下 面 两 个 例子 说 明了 这 些 事 实 . 


例 1.22 (两 两 独立 并 不 包含 独立 ) ” 设 试验 是 抛掷 两 枚 均匀 的 硬币 ， 考 虑 下 列 事 
件 : 
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= {第 一 次 扔 得 正面 }， 
Hs = { 第 二 次 扔 得 正面 }， 
DD = {两 次 扔 得 的 结果 不 相同 }. 
由 定义 可 知 有 和 Hz 是 相互 独立 的 . 现在 证 明 成 和 DD 也 是 相互 独立 的 . 注意 到 
P(EHINMD) 14 1 
PC 本 )= 一 二 -17 -3=P(D), 


可 知 D 与 硬是 相互 独立 的 . D 与 Ha 的 相互 独立 性 可 以 类 似 地 证 明 . 另 一 方面 ， 
由 


P(Hi N HN D)= 一 0 #3 一 "一 "~ = P(Hi1)P(H2)P(D,), 
可 知 3 个 事件 是 不 独立 的 . 口 
例 1.23 (等 式 P(4im 42 n 4s) = P(A1)P(42)P(As) 不 包含 独立 ) ” 设 试验 是 
抛掷 两 个 均匀 的 骨 子 (正六 面体 ): 
4 = {第 一 次 扔 得 1, 2 或 3}, 
B = {第 二 次 扔 得 3, 4 或 5]}， 
C = { 两 次 扔 得 的 点 数 之 和 为 9}. 


我 们 有 
1 1 1 

P(ANB)= 3 #53.3=P(A)P(B), 

P(ANO) = 高 了 5- 访 ==P(A)P(C), 
1 1 4 

P(BNO)= 证 #3:h=P(B)P(C). 


这 样 3 个 事件 是 不 独立 的 ， 并 上 任何 可 一 对 事件 也 不 相互 独立 的 . 但 是 下 面 的 等 式 是 
成 立 的 


P(ANBNMOC)= 志 = 了 了 二 =PCUOP (B)P(C). 口 


一 组 事件 的 独立 性 的 直观 背景 与 两 个 事件 的 独立 性 是 一 样 的 . 独立 性 意味 
着 下 面 一 个 事实 : 设 把 一 组 事件 任意 地 分 成 两 个 小 组 , 一 个 小 组 中 的 任意 个 数 的 
事件 的 出 现 与 不 出 现 ， 都 不 会 带 来 男 一 个 小 组 中 的 事件 的 任何 信息 . 例如 ， 事件 
41, A2, 4s, 44 是 独立 的 事件 组 , 则 下 面 一 类 等 式 都 是 成 立 的 
P(A1 U As|As 门 44) 一 P(A1 U 42)， 
P(AiU 454Sn As) = P(A1U 45)， 


证 明 可 见 本 章 末 的 习题 . 
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1.5.3 “可靠 性 


在 由 多 个 元 件 组 合成 的 一 个 复杂 系统 中 , 通常 假定 各 个 元 件 的 表现 是 相互 独立 
的 . 下 面 的 例子 说 明 做 了 这 样 的 假定 以 后 , 其 计算 和 分 析 将 变 得 十 分 简单 . 
例 1.24 (网 络 连 接 ) ”在 计算 机 网 络 中 , 4 和 召 两 个 结 点 通过 中 间 结 点 C, 也 ,已 ,下 
相互 连接 ( 见 图 1.15a). 图 上 直接 连接 的 两 个 点 i 和 ; 表示 i 和 ; 之 间 有 一 个 元 
件 运行 着 , 当 这 个 元 件 失效 时 两 个 点 之 间 就 失去 连接 . 我 们 假定 i 和 ; 之 间 具 有 给 
定 的 连接 概率 pij. ”假定 各 点 之 间 的 连接 与 否 独 立 于 其 他 各 点 之 间 了 连接 与 否 . 问 A 
和 B 之 间 相 互 连 接 的 概率 有 多 大 ? 


串联 结构 


(a) (p) 
图 1.15 (a) 例 1.24 的 网 络 . 箭头 旁边 的 数字 表示 相应 的 结 点 之 间 的 元 件 有 效 的 概率 . (b) 在 
可 靠 性 问题 中 由 三 个 元 件 组 成 的 串联 和 并 联系 统 的 图 示 


这 是 一 个 典型 的 系统 可 靠 性 的 估计 问题 . 系统 由 元 件 组 合 而 成 , 而 各 元 件 的 失 
效 与 否 是 相互 独立 的 . 这 些 系统 通常 能 够 分 解 成 若干 子 系统 , 而 每 个 子 系统 又 由 若 
干 元 件 组 成 , 这 些 元 件 可 以 以 串联 方式 或 并 联 方式 相互 连接 ( 见 图 1.15b). 

设 系统 由 元 件 1,2,… ,m 组 成 , 令 Pa 为 元 件 i 有 效 (运行 ) 的 概率 . 串联 系统 
只 有 在 所 有 元 件 均 有 效 的 情况 才 是 有 效 的 . 即 


P( 串 联系 统 有 效 ) = pip2…… pm. 
在 并 联系 统 中 只 需 诸 元 件 中 有 一 个 元 件 有 效 , 系统 就 有 效 , 即 
P( 并 联系 统 有 效 ) = 1 - P( 并 联系 统 失效 ) 
=1—(1—p1)( ~ p2).… (1 ~ pm). 
现在 回 到 图 1.15a 的 网 络 连通 的 概率 (4 和 B 之 间 连 通 的 概率 ) 的 计算 . 我 们 
用 多 一 Y 表示 “由 到 Y 是 连通 的 ”这 一 随机 事件 . 我 们 有 
P(C—»B)=1- (1-P(C— E 和 EB)) (1 ~ P(C — F 和 F — B)) 
=1~— (1— pospgs)(l — perpss) 


@ 图 1.15a 中 两 个 结 点 之 间 的 箭头 旁边 的 数字 就 是 结 点 之 间 的 连接 概率 . 一 一 译 者 注 
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=1— (1—0.8.0.9)(1 -0.95.0.85) 

= 0.946， 
P(A4—C 和 GC- B)=P(A-;C)P(C — B)= 0.9.0.946 = 0.851， 
P(4—D 和 DB)=P(A— D)P(D -= B)= 0.75:0.95 = 0.712. 


最 后 , 我 们 得 到 所 需 的 概率 
P(A4—B)=1-(1-P(4— C0 和 CC—B))(1-P(A— D 和 D — 8B)) 
=1— (1—0.851)(1— 0.712) 
= 0.957. 口 
1.5.4 独立 试验 和 二 项 概率 


现在 设 试验 有 一 系列 独立 并 且 相同 的 小 试验 组 成 , 称 这 种 试验 为 独立 试验 序 
列 . 当 每 个 阶段 的 小 试验 只 有 两 种 可 能 结果 的 时 候 , 就 称 为 独立 的 伯 努 利 试验 序列 ， 
此 处 的 两 种 可 能 结果 可 以 是 任何 结果 , 例如 “下 雨 ” 和 “不 下 雨 ”. 但 是 , 在 学 术 讨 
论 中 , 我 们 通常 用 掀 括 硬币 的 两 个 结果 “正面 ”(H) 和 “反面 ”(T) 作为 代表 . 

现在 考虑 连续 n 次 独立 地 抛掷 硬币 的 试验 , 每 次 抛掷 的 结果 为 正面 的 概率 为 
p, 其 中 p 是 在 0 和 1 之 间 的 数 . 此 处 “独立 ”意味 着 事件 A1, 42,… , 4" 是 独立 
的 , 事件 4; = { i 次 抛 搓 的 结果 为 “正面 }. 

我 们 可 以 用 序 贯 树 形 图 来 直观 上 刻画 独立 伯 努 利 试验 序列 . 图 1.16 中 显示 的 
是 n= 3 的 情况 . 由 于 独立 性 , 不 管 前 面 的 抛 丘 结果 是 什么 , 每 次 抛掷 得 到 正面 的 
条 件 概率 都 是 p. 这 样 , 每 个 试验 结果 (长 度 为 3 的 正面 和 反面 的 序列 ) 的 概率 只 与 
序列 中 的 正面 出 现 次 数 有 关 . 设 试验 结果 中 有 个 正面 , 3 一 k 个 反面 , 则 这 个 试验 
结果 的 概率 为 pr(1 一 p)3*. 这 个 公式 可 以 推广 到 任何 ”次 抛掷 硬币 的 试验 结果 的 
计算 . 在 长 度 为 ”的 独立 伯 努 利 试验 序列 中 , 任何 试验 结果 的 概率 为 pt(1 一 p)"-*， 
其 中 上 为 试验 结果 中 正面 出 现 的 次 数 , & 的 取 值 可 以 从 0 变 到 m. 

现在 我 们 要 计算 概率 


p(k) = P(n 次 抛掷 中 有 大 次 出 现 正面 )， 


这 个 概率 在 概率 论 中 处 于 十 分 重要 的 地 位 . 由 于 任何 包含 次 正面 向 上 的 结果 的 
概率 都 是 p*(1 一 p)*-*, 我 们 得 到 


p(k) = (rl —p)"—®*, 
此 处 记号 
() 二 ?次 抛掷 硬币 的 试验 中 出 现 & 次 正面 的 试验 结果 数 . 
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数 (") 就 是 有 名 的 二 项 系数 , 称 为 n 选 的 组 合 数 , 概率 p(k) 就 是 有 名 的 二 项 概 
率 . 在 1.6 节 将 介绍 计数 法 , 利用 计数 法 可 以 得 到 


此 处 记号 让 表示 正 整 数 i 的 阶乘 ， 
=1.2...(i—1).i, 


按 传 统 , 记 0! = 1. 在 本 章 末 的 习题 中 给 出 了 这 个 公式 的 另 一 证 明 . 由 于 二 项 概率 
p(k) 的 总 和 必须 为 1, 这 样 我 们 得 到 二 项 公式 


> (站 za —p)" “=1. 


k=0 


HHH 概率 =p 


HHT 概率 =p?(1 一 p) 
HTH 概率 =p(1 一 p) 


HTT 概率 =p(l1 一 p)? 


THH 概率 =y(1 一 p) 


THT 概率 =p(1 一 p)? 
TTH 概率 =p(1 一 p)? 


TTT 概率 =p(1 一 p)? 


1.16 ”连续 二 次 抛 措 硬币 试验 的 序 贯 树 形 图 表示 . 在 树枝 上 已 经 标明 相应 的 条 件 概率 . 作为 
顺序 三 次 抛掷 硬币 的 结果 的 概率 是 在 树 形 图 的 相应 路 径 上 的 条 件 概率 的 乘积 


例 1.25 (服务 等 级 ) ” 设 一 个 互联 网 服务 器 备 有 c 个 调制 解 调 器 以 满足 n 个 用 户 
的 需要 . 设 在 给 定时 刻 , 每 一 个 用 户 相 互 独立 地 以 概率 p 需要 与 服务 器 连接 , 当 连 
接 的 时 候 , 服务 器 需要 有 一 个 调制 解 调 器 以 供 使 用 . 现在 的 问题 是 调制 解 调 器 不 够 
用 的 概率 有 多 大 ? 

当 同 一 时 刻 需 要 调制 解 调 器 的 用 户 个 数 多 于 c 的 时 候 , 服务 器 就 不 能 够 满足 
用 户 的 需要 . 它 的 概率 为 
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其 中 
pi) = (7) pC -Br 
是 二 项 概率 . 例如 n = 200, p = 0.1 和 ec= 15, 相应 的 概率 为 0.039 9. 
这 是 一 个 典型 的 满足 用 户 需 求 的 设备 规模 问题 . 这 批 用 户 是 一 群 具 有 相同 需 
求 并 且 独 立行 动 的 用 户 . 现在 的 问题 是 要 选择 服务 设备 的 规模 , 使 得 满足 用 户 需 求 
( 指 所 有 需要 使 用 设备 的 用 户 都 能 得 到 服务 ) 的 概率 超过 给 定 的 门限 值 (有 时候, 给 
概率 值 设 立 若 干 门限 , 称 为 服务 等 级 ). 口 


1.6 计 数 法 


在 计算 概率 的 时 候 , 通常 需要 数 清楚 有 关 事 件 中 的 试验 结果 数 (或 基本 事件 
数 ). 我 们 已 经 遇 到 两 种 情况 , 需要 这 样 的 计数 法 . 

(a) 当 样 本 空间 Q 只 有 有 限 个 等 可 能 的 试验 结果 , 因此 这 是 一 个 等 概率 模型 . 
事件 4 的 概率 可 由 下 式 给 出 


p(4) = 和 4 中 元 素 的 数目 
一品 中 元 素 的 数目 ， 


公式 中 涉及 4 和 9 中 元 素 的 计数 问题 . 
(b) 当 我 们 需要 计算 事件 4 的 概率 , 且 4 中 的 每 一 个 试验 结果 具有 相同 的 概 
率 p(p 已 知 ) 时 , 那么 
P(4) = 2 (4 中 元 素 的 数目 ). 


此 时 , 也 涉及 事件 4 中 的 元 素 的 计数 问题 . 前 面 提 到 的 ”次 抛掷 硬币 的 试验 中 出 
现 & 次 正面 的 事件 的 概率 (二 项 概率 ) 的 计算 就 是 这 样 一 类 的 计算 问题 . 这 个 概率 
的 计算 过 程 显示 , 每 个 试验 结果 的 概率 的 计算 是 比较 容易 的 , 但 是 要 数 清楚 具有 上 
次 正面 向 上 的 试验 结果 的 个 数 , 却 有 一 些 复杂 . 

计数 问题 原则 上 很 简单 , 但 是 真正 计算 起 来 却 不 简单 . 计数 的 艺术 属于 组 合 数 
学 的 一 部 分 . 本 节 将 介绍 一 些 计数 的 基本 准则 , 并 将 之 应 用 到 概率 模型 中 经 常 遇 到 
的 计算 问题 . 


1.6.1 计数 准则 


这 是 计数 的 最 基本 的 方法 . 计数 准则 基于 分 阶段 计数 的 原则 , 因此 可 以 借助 序 
贯 树 形 图 进行 计数 . 例如 , 考虑 一 个 由 两 个 相继 阶段 组 成 的 试验 . 第 1 阶段 试验 的 
可 能 结果 为 a1, a2,… ,am, 而 第 2 阶段 的 结果 为 51,b2,… ,bn. 这 样 两 阶段 的 试验 
结果 为 所 有 的 有 序 对 (ai, 9)),i = 1,… ,m,j = 1,… ,n, 这 些 有 序 对 的 个 数 总 和 为 
mm. 这 种 计数 方法 可 以 进行 推广 个 阶段 试验 的 情况 (也 可 见 图 1.17 的 说 明 ). 
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计数 准则 ? 
考虑 由 7 个 阶段 组 成 的 一 个 试验 . 假设 : 
(a) 在 第 1 阶段 有 mi 个 可 能 的 结果 ; 
(b) 对 于 第 1 阶段 的 任何 一 个 结果 , 在 第 2 阶段 有 ma 个 可 能 的 结果 ; 
(c) 一 般 地 , 在 前 7 一 1 个 阶段 的 任何 一 个 结果 , 在 接 下 来 的 第 7 阶段 有 mr 
个 结果 , 则 在 7 个 阶段 的 试验 中 一 共有 


N1N2 :Nr 


个 试验 结果 . 


a Tw ns ?24 
结果 结果 结果 结果 
阶段 1 阶段 2 阶段 3 阶段 4 
1.17 基本 的 计数 准则 的 序 贯 树 形 图 说 明 . 通过 7 个 阶段 进行 计数 (图 中 + = 4). 第 一 个 
阶段 有 ni 个 可 能 的 结果 . 前 + - 1 个 阶段 的 每 一 个 可 能 的 结果 , 在 第 7 阶段 都 对 应 
着 n 个 可 能 结果 . 总 共 的 叶子 数目 为 nin2z…… nr 


例 1.26 (电话 号 码 数 ) ”电话 号 码 由 7 位 数字 组 成 , 但 第 一 位 不 能 是 0 或 1. 一 共 
有 多 少 个 不 同 的 号 码 呢 ? 我 们 可 以 将 之 看 成 序 贯 地 选择 数字 的 过 程 , 但 每 次 只 选 一 
位 . 总 共有 7 个 阶段 , 第 1 个 阶段 一 共有 8 种 选择 , 从 第 2 阶段 开始 , 每 次 都 从 10 
个 数字 中 任 选 一 个 . 因此 电话 号 码 的 个 数 为 


站 a 二 . 6 

8.10.10...10= 8.10°. 口 
6 次 

Q@ 国内 称 为 “计数 的 乘法 准则 ”或 “乘法 准则 ”, 这 个 名 称 更 通俗 易 懂 . 一 一 译 者 注 
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例 1.27 (mn 个 元 素 的 集合 的 子 集 的 个 数 ) ”考虑 一 个 个 元 素 的 集合 {81, s2,… ， 
sn}. 这 个 集合 有 多 少 个 子 集 (包括 这 个 集合 本 身 和 空 集 呢 )? 我 们 可 以 用 序 贯 的 方 
法 选择 一 个 子 集 . 我 们 可 以 对 每 一 个 元 素 做 一 个 选择 , 并 判断 它 是 否 属于 这 个 子 集 . 
这 样 一 共 分 成 个 阶段 , 每 一 个 阶段 有 两 种 选择 . 这 样子 集 的 总 数 为 
2.2...2=2". 口 


盖 一 一 一 
2 次 


可 以 对 这 个 计数 准则 做 一 些 稍微 修改 . 对 于 不 同 的 第 一 阶段 的 结果 后 面 可 以 接 
着 不 同 的 第 二 阶段 的 试验 , 只 要 各 个 第 二 阶段 的 可 能 结果 的 数目 相同 . 

下 面 我 们 将 讨论 从 ”个 对 象 中 选取 8 个 对 象 的 计数 问题 . 若 选 取 的 对 象 与 次 
序 有 关 , 则 选 出 来 的 一 组 对 象 称 为 排列 , 若 选 出 来 的 一 组 对 象 是 形成 一 个 集合 , 与 选 
取 的 对 象 的 次 序 无 关 , 则 这 一 组 对 象 称 为 组 合 . 以 后 我 们 还 会 讨论 更 一 般 的 分 割 的 
计数 问题 . 所 谓 分 割 就 是 将 ”个 对 象 分 成 多 个 子 集 . 

1.6.2 7m 选 太 排列 


首先 假定 ”个 不 同 的 对 象 组 成 一 个 集合 . 令 是 一 个 正 整 数 , k < n. 现在 我 们 
希望 找 出 从 ”个 对 象 中 顺序 地 选 出 大 个 对 象 的 方法 数 , 或 大 个 不 同 对 象 的 序列 数 . 
作为 第 一 阶段 , 我 们 可 以 从 n 个 对 象 中 任意 选 一 个 . 当 第 一 个 对 象 选 定 以 后 , 在 第 
二 阶段 , 我 们 只 可 能 从 剩 下 的 呈 - 1 个 对 象 中 选择 一 个 . 当前 两 个 对 象 选 定 以 后 , 在 
第 三 阶段 , 只 可 能 从 剩 下 的 n 一 2 个 对 象 中 选择 一 个 , 等 等 . 最 后 , 当 我 们 选择 第 大 
个 对 象 的 时 候 , 只 能 从 剩 下 的 n 一 (一 1) 个 对 象 中 选择 了 . 利用 计数 准则 , 所 有 可 


能 的 序列 数 为 
_ nm ol1).…(n—k+1)n— Ek)...2.1 
"rr ON 
nl! 
= mp 
特别 当 = n 的 情况 , 此 时 所 有 可 能 的 序列 数 为 
n(n—1):..….2:1=n,), 


这 时 , 这 些 序列 称 为 n 取 排列 , 特别 , 当 大 = ” 的 时 候 , 简称 为 排列 ?. (当天 =m 
的 时 候 , 关于 排列 数 的 公式 仍然 有 效 , 原因 是 我 们 已 经 约定 0! = 1. ) 

例 1.28 现在 计算 由 4 个 不 同 字母 组 成 的 字 的 个 数 . 这 是 26 选 4 的 排列 数 . 按 
排列 公式 为 


! 26! 
mA = 221 = 26°25.24.23= 358 800. 口 


Q@ 此 处 的 排列 、 组 合 和 分 割 在 中 英文 中 均 有 双重 意义 , 一 个 排列 是 指 n 个 元 素 的 一 个 顺序 , 同时 又 可 
以 指 排 列 数 n1, 具体 指 哪 种 内 容 要 看 行文 一 一 译 者 注 
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排列 计数 法 可 以 与 计数 的 乘法 准则 联合 起 来 解决 更 复杂 的 排列 问题 . 
例 1.29 你 有 ni 张 古典 音乐 CD 得 , no 张 摇 滚 音 乐 CD 查 , ns 张 乡村 音乐 CD 
盘 . 有 多 少 种 排列 方法 将 这 些 CD 盘 排 在 CD 架 上 , 使 得 相同 种 类 的 CD 盘 是 排 在 
一 起 的 ? 

我 们 将 问题 分 成 两 步 解 决 . 首先 选择 CD 盘 类 型 的 次 序 , 然后 选择 每 种 CD 担 
内 部 的 次 序 . 一 共有 3! 种 类 型 次 序 (例如 古典 /摇滚 /乡村 , 乡村 /古典 /摇滚 等 ), 一 
共有 nil( 或 nab 或 nal) 种 古典 (或 摇滚, 或 乡村 )CD 的 排列 . 这 样 对 每 一 种 CD 类 
型 的 排列 , 有 nilnaltns! 种 CD 盘 的 排列 方式 . 从 而 总 的 排列 方法 数 为 3tnjlnolnal. 

现在 假定 , 计划 将 每 一 类 CD 盘 中 选 出 k; 张 (你 原 有 ni 张 i 类 CD) 送 给 你 
的 骨 友 . 当 你 送出 盘 以 后 , 你 的 CD 架 上 有 多 少 种 排列 法 ? 这 个 问题 与 没有 送出 时 
的 计算 方法 是 一 样 的 , 只 是 将 ni! 换 成 n; 选 n; -的 排列 数 即 可 . 所 以 可 能 的 排 
列 数 为 | ni!l no! nsl! 

3 1 Br ET 口 


1.6.3 组 合 . 


一 共有 n 个 人 , 希望 组 织 一 个 k 个 人 的 委员 会 . 问 有 多 少 种 不 同 的 委员 会 ? 用 
抽象 的 语言 说 , 给 定 的 n 个 元 素 的 集合 中 有 多 少 种 不 同 的 & 个 元 素 的 子 集 ? 注意 ， 
形成 子 集 不 同 于 形成 n 选 排列 , 因为 在 选择 子 集 的 过 程 中 , 选 出 来 的 个 元 
素 之 间 是 没有 次 序 的 . 例如 4 个 字母 4, B,C 和 D 中 选 2 个 的 排列 有 12 种 : 


AB, AC, AD, BA, BC, BD, CA, CB, CD, DA, DB, DC, 
而 这 4 个 字母 的 两 个 字母 的 组 合 有 下 列 6 种 
AB, AC, AD, BOC, BD, CD. 


(因为 在 组 合 中 元 素 是 没有 次 序 的 , 4B 和 BA 是 无 法 区 别 的 .) 

在 上 面 的 例子 中 , 组 合 实际 上 是 由 排列 归并 而 成 的 . 例如 , 从 组 合 的 观点 看 来 ， 
4AB 和 BA 是 不 可 区 分 的 , 它们 都 对 应 于 组 合 4B. 这 种 推导 方法 可 以 推广 到 一 般 
的 情况 : 在 n 对 和 象 取 上 个 对 每 的 组 合 中 , 每 一 个 组 合 对 应 了 k! 个 不 同 的 排列 . 这 
样 在 n 对 和 象 取 上 个 对 象 的 排列 数 n!/(n 一 癌 ! 等 于 组 合 数 乘 以 kl. 因此 , 从 nn 个 元 
素 的 集合 中 选 个 元 素 的 组 合 数 为 

nl 
kl(n — k)! 

现在 回 到 二 项 系数 (”) 的 表达 式 . 二 项 系数 定义 为 次 抛掷 硬币 时 , 正面 向 上 

次 数 为 的 可 能 的 试验 结果 数 . 我 们 注意 到 , 确定 一 个 次 向 上 的 试验 结果 等 价 


@ 在 计算 排列 方法 数 的 时 候 , 要 顾及 各 种 不 同 的 送 CD 盘 的 方法 . 一 一 译 者 注 


1.6 计 数 法 43 


于 在 所 有 ” 次 抛掷 结果 (正面 向 上 或 反面 向 上 ) 选 出 天 次 (正面 向 上 ) 来 . 因此 二 
项 系数 刚好 等 于 从 n 个 元 素 选 择 个 元 素 的 组 合 数 . 这 样 


= 到 


例 1.30 4,B,C 和 四 个 字母 中 选 出 两 个 字母 的 组 合 数 为 


4\ 4 
(3 = at" 


这 个 结果 与 前 面 列举 的 组 合 数 相同 . 口 
值得 指出 的 是 , 有 时 候 利用 计数 法 能 够 导出 一 些 在 代数 上 很 难 证 明 的 公式 . 一 
个 例子 是 在 1.5 节 讨 论 的 二 项 公式 


3 (ra —p)"*=1. 


k=0 


作为 特殊 情况 , 当 p = 1/2 时 , 公式 变 成 


nn 一 2m， 
二 人 
上 式 还 可 以 得 到 新 的 解释 . 由 于 (”) 是 具有 n 个 元 素 的 集合 的 所 有 个 元 素 的 子 
集 的 个 数 , 将 (*) 对 所 有 的 求 和 得 到 这 个 集合 的 所 有 子 集 的 个 数 , 而 这 个 数 刚 好 
等 于 27. 
例 1.31 设 有 一 群 人 ,一 共有 个 . 现在 要 组 织 一 个 个 人 爱好 俱乐部 , 俱乐部 由 一 
个 主任 和 若干 成 员 组 成 (成 员 人 数 可 为 0). 间 有 多 少 种 方式 组 成 一 个 俱乐部 ? 我 们 
用 两 种 不 同 的 计数 法 计算 , 从 而 得 到 一 个 代数 恒等式 . 

首先 挑选 一 个 俱乐部 主任 , 一 共有 nn 种 不 同 的 选 法 . 然后 从 剩 下 的 n 一 1 个 人 
员 中 挑选 一 般 成 员 . 实际 上 , 这 n -1 人 中 任意 一 个 子 集 , 配 上 主任 , 就 成 为 一 个 俱 
乐 部 . 而 不 同 的 子 集 个 数 共有 2"-! 个 . 这 样 一 共有 n2"-! 种 不 同 的 方式 组 成 一 个 
俱乐部 . 

另外 , 我 们 可 以 这 样 考 虑 此 问题 . 首先 选择 个 人 组 成 一 个 上 人 和 集体, 然后 从 
中 选择 一 个 主任 , 组 成 一 个 & 人 俱乐部 . 这 样 一 共有 k(") 种 方式 组 成 一 个 & 人 俱 
乐 部 . 对 所 有 的 (k = 1,.… ,n), 将 组 成 x 人 俱乐部 的 方式 相 加 , 就 得 到 组 成 俱 乐 
部 的 方式 数 . 由 此 可 得 到 代数 恒等式 


的 = 722 一 1 口 


天 一 1 
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1.6.4 分割 


注意 到 组 合 是 从 ”个 元 素 的 集合 中 选 出 的 一 个 元 素 个 数 为 上 的 子 集 , 因此 可 
将 一 个 组 合 看 成 将 集合 分 成 两 个 子 集合 的 一 个 分 划 ， 其 中 一 个 子 集 的 元 素 个 数 为 
k, 另 一 个 子 集 为 补 集 , 其 元 素 的 个 数 为 n 一 . 现在 我 们 考虑 将 一 个 集合 分 成 多 于 
两 个 集合 的 分 割 |, 

给 定 一 个 元 素 个 数 为 n 的 集合 , 并 设 ni1,n2,… ,mr 为 非 负 整 数 , 其 总 和 为 m. 
现在 考虑 将 具有 7 个 元 素 的 集合 分 解 成 ” 个 不 相交 的 子 集 , 使 得 第 i 个 子 集 元 素 
个 数 刚 好 是 ni. 问 一 共有 多 少 种 分 解 的 方法 . 

现在 分 阶段 每 次 确定 一 个 子 集 . 一 共有 (,”) 种 方法 确定 第 一 个 子 集 . 当 第 一 
个 子 集 确定 以 后 , 只 剩 下 n 一 ni 个 元 素 可 以 用 来 确定 第 二 个 子 集 . 这 样 在 确定 第 二 
个 子 集 的 时 候 , 一 共有 ("i") 种 方法 , 以 此 类 推 . 对 7 个 阶段 的 选择 过 程 利用 计数 
准则 得 到 总 共 的 选择 方法 数目 为 


WA 也 一 多 1 人 一 也 1 一 人 2 籽 一 了 1 一 一 也 r 一 1 
ml n2 na nr ， 


nl! (n—ni)! (noni nr 1)! 


nln—n)!l al 一 901 一 02) Tarim 一 rd 一 :一 rz- 一 mr) 


经 过 消去 化 简 , 上 式 等 于 


上 式 等 于 


nl 
ni!ln2! 5 nr! 


这 个 数 称 为 多 项 系数 , 并 且 用 下 列 记号 表示 : 


. ) 
N1, 12 ,Nr. 


例 1.32 (相同 字母 异 序 词 ) 将 TATTOO 这 个 英文 单词 的 字母 颠倒 排列 可 得 到 多 
少 个 不 同 的 单词 ? 这 里 有 6 个 位 置 供 这 些 字 母 去 填充 . 每 一 个 字母 的 重新 排列 等 
于 一 个 6 个 位 置 的 分 割 , 分 割 的 一 个 小 组 的 大 小 为 3, 用 于 放置 字母 T, 另 一 个 小 
组 的 大 小 为 2, 用 于 放置 字母 0, 第 三 个 小 组 的 大 小 为 1, 用 于 放置 字母 A. 这 样 一 


共有 6! 1.2.3.4.5.6 


iT 321 23 一 60 
个 单词 . 
也 可 以 用 另 一 种 方法 导出 这 个 结果 (这 种 方法 也 可 以 用 于 导出 多 项 系数 的 公 
式 , 见 本 章 后 习题 ). 我 们 将 TATTOO 写成 TiAT2TsO1O， 的 形式 , 假装 这 6 个 字 
母 是 不 相同 的 . 这 样 一 共有 6! 种 不 同 的 排列 . 然而 有 3! 种 TiTsTs 的 排列 和 2! 种 
O102 的 排列 形成 同一 个 单词 , 这 样 当 下 标 去 掉 以 后 , 一 共有 6!/(3!2!) 个 不 同 的 单 
词 . 口 
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例 1.33 一 个 班 由 4 个 研究 生 和 12 个 本 科 生 组 成 . 将 这 个 班 随机 地 分 成 4 个 小 
组 , 每 组 4 人 . 问 每 个 组 刚好 包含 一 个 研究 生 的 概率 有 多 大 ? 这 个 问题 就 是 1.3 节 
例 1.11 的 问题 . 但 是 现在 我 们 要 利用 计数 方法 解答 这 个 问题 . 

首先 应 该 确定 样本 空间 . 我 们 将 分 小 组 的 问题 设想 成 将 16 个 学 生 随 机 地 放 入 
4 个 房间 , 每 个 房间 4 个 人 , 这 是 一 个 分 割 问题 . 由 于 16 个 人 是 随机 地 分 派 到 各 个 
房间 里 去 的 , 故 每 个 分 割 的 概率 是 相等 的 .” 

按照 分 割 的 定义 , 分 割 数 为 


16 16! 
4,4,4,4/ ， 4444 


现在 考虑 每 一 个 房间 只 分 配 一 个 研究 生 的 分 割 数 . 我 们 可 以 分 两 个 阶段 完成 
学 生 的 分 派 问题 . 

(a) 第 一 阶段 , 将 4 个 研究 生 分 派 到 4 个 房间 中 去 , 每 个 房间 1 人 . 这 是 一 个 
只 有 4 个 人 的 分 割 问题 , 分 割 数 为 41. 

(b) 第 二 阶段 , 将 12 个 本 科 生 分 派 到 4 个 房间 中 去 , 每 个 房间 分 派 3 人 . 这 也 
是 一 个 分 割 问 题 , 分 割 数 为 

12 12! 
(333.3) ~ 31313131 


利用 乘法 准则 , 每 个 房间 分 派 1 个 研究 生 和 3 个 本 科 生 的 方法 一 共有 
4!12! 
3!1313!3! 
种 . 这 样 , 按 古 典 概 型 的 定义 , 每 个 小 组 分 派 到 一 个 研究 生 的 概率 为 


经 过 化 简 , 这 个 数 为 


这 个 结果 与 例 1.11 的 结果 相符 合 . 口 
下 面 是 计数 结果 的 汇总 . 


计数 法 汇总 
。n 个 对 象 的 排列 数 : nl. 


。 n 个 对 象 中 取 天 个 对 象 的 排列 数 : n!/(n 一 1. 


四 这 样 , 样本 空间 由 全 体 分 割 组 成 , 并 且 概率 律 是 等 概率 的 . 一 一 译 者 注 
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。 将 n 个 对 象 分 成 + 个 组 的 分 割 数 , 其 中 第 i 个 组 具有 mi 个 对 象 : 


nl! 
nlnol: nr! 


1.7 “小 结 和 讨论 


解决 一 个 概率 问题 通常 分 成 下 列 几 个 步骤 : 

(a) 描述 样本 空间 , 样本 空间 是 一 个 试验 的 所 有 可 能 的 试验 结果 的 集合 ; 

(b) (可 能 不 直接 地 ) 列 出 概率 律 (每 个 事件 的 概率 ); 

(c) 计算 各 种 事件 的 概率 和 条 件 概率 . 

概率 律 必须 满足 非 负 性 、 可 加 性 和 归 一 性 公理 . 对 于 试验 结果 的 总 数 有 限 的 重 
要 特例 , 我 们 只 需 列 出 每 一 个 可 能 试验 结果 的 概率 , 而 任何 事件 的 概率 的 计算 ,只 
需 将 组 成 这 个 事件 的 所 有 可 能 的 试验 结果 的 概率 相 加 , 就 得 到 这 个 事件 的 概率 . 

给 定 一 个 概率 律 , 我 们 经 常 需要 计算 条 件 概 率 , 这 是 因为 条 件 概 率 涉及 得 到 部 
分 信息 以 后 的 概率 计算 问题 . 我 们 也 可 以 将 条 件 概率 看 成 特殊 的 概率 律 , 在 这 个 概 
率 律 之 下 , 只 有 包含 于 由 条 件 所 确定 的 事件 内 的 事件 才 有 正 的 条 件 概率 . 条 件 概率 
可 以 通过 公式 P(4|B) = PL4mE)/P(B5) 进行 计算 . 然而 在 应 用 中 , 更 常见 的 是 利 
用 条 件 概 率 来 计算 无 条 件 概率 . 

我 们 已 经 用 例子 说 明了 计算 概率 的 如 下 三 种 方法 . 

(a) 计数 法 . 这 种 方法 适用 于 古典 概 型 , 即 试验 只 有 有 限 个 可 能 的 试验 结果 , 而 
试验 结果 是 等 可 能 的 . 为 计算 一 个 事件 的 概率 , 只 需 数 清楚 这 个 事件 中 的 基本 事件 
个 数 , 再 除 以 基本 事件 总 数 , 就 得 到 这 个 事件 的 概率 . 

(b) 序 贯 树 形 图 方法 . 当 试 验 具 有 序 贯 特征 的 情况 下 可 以 利用 序 贯 树 形 图 方 
法 . 这 种 方法 的 关键 是 我 们 必须 计算 相应 树枝 事件 的 条 件 概率 . 这 些 条 件 概率 或 者 
是 已 知 的 或 者 是 利用 各 种 方法 (包括 计数 法 ) 计算 得 到 的 . 利用 乘法 规则 将 相应 路 
径 上 的 事件 的 条 件 概率 相 冬 , 就 可 以 得 到 相应 事件 的 概率 . 

(c) 全 概率 公式 . 利用 全 概率 公式 可 以 计算 事件 B 的 概率 P(B), 关键 是 要 找到 
样本 空间 的 一 个 分 割 4i,i = 1 … ,n, 使 得 相应 的 概率 P(4;) 和 条 件 概率 P(B|Ai) 
为 已 知 或 比较 容易 计算 , 然后 利用 全 概率 公式 计算 P(B). 

最 后 , 我 们 还 讨论 了 若干 问题 , 这 些 问 题 或 者 扩大 了 概率 论 的 应 用 范围 , 或 者 
提高 了 利用 主要 定理 进行 计算 的 能 力 . 我 们 引入 了 贝 叶 斯 公式 , 这 是 概率 论 的 一 个 
重要 应 用 领域 . 同时 , 为 了 加 强 计算 能 力 , 我 们 讨论 了 计数 方法 的 一 些 基 本 规则 , 包 
括 组 合 、 排 列 等 . 
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习 题 


1.1 节 集合 


1. 


考虑 掷 一 个 具有 6 个 面 的 仙子 . 令 事件 4 为 搓 出 偶数 . 令 B 表示 点 数 大 于 3 的 事件 . 验 
证 下 面 的 德 摩根 公式 : 


(AUB):= A°NB:, (A4NB):=A°UB.. 


， 设 4 和 B 是 两 个 集合 . 


(a) 证 明 
A*=(A°NB)U(ANMB’), B=(A4NB°)U(ANB'). 


(b) 证 明 
(ANB) = (A°NB)U(A°NB)U(ANB’). 


(c) 考虑 掷 一 个 均匀 的 ， 具有 6 个 面 的 般 子 . 令 事 件 4 为 掷 出 奇数 . 令 B 表示 点 数 小 
于 4 的 事件 . 求 出 (b) 中 公式 两 边 的 集合 并 验证 集合 等 式 . 
证 明 恒 等 式 
AU (NBn) = NDAU Bn). 


解 车 x 为 左边 的 集合 的 元 素 , 则 有 两 种 可 能 性 ，(i)z < 4, 此 时 对 一 切 n > 1, > E 
4U Bn, 从 而 z 属于 等 式 右边 的 集合 ; (ii) 对 一 切 n > 1, x € Bn, 此 时 对 一 切 n > 1， 
x € AU Bn, 这 样 , xz 也 属于 等 式 右边 的 集合 . 

反 过 来 , 车 xz 是 等 式 右边 的 集合 的 元 素 , 说 明 对 一 切 n >1,ze AUBn. 若 ze 有 4， 
显然 z 是 等 式 左 边 的 集合 的 元 素 . 若 z ¢ 4, 此 时 , 对 一 切 ”> 1, z 必须 是 B, 的 元 素 ， 
这 再 一 次 证 明 x 是 等 式 左边 的 集合 的 元 素 . 

康 托 的 三 角 论 证 方法 ”指出 单位 区 间 [0, 1] 是 不 可 数 集合 , 即 [0, 1] 中 的 数 不 可 能 排 成 一 
个 数列 . 
解 每 一 个 [0,1] 区 间 中 的 数 , 都 有 十 进 制 表达 式 , 例如 1/3 = 0.3333…. 注意 , 绝 大 部 
分 数 具 有 唯一 的 表达 式 , 但 也 有 例外 , 例如 1/2 可 以 表 为 0.5000.… 或 0.4999.…. 可 以 
证 明 这 些 数 是 仅 有 的 例外 , 即 只 有 结尾 是 无 限 个 0 的 数 或 结尾 是 无 限 个 9 的 数 才 有 两 种 
表达 式 ， 

现在 用 反 证 法 . 假设 所 有 的 [0, 1] 区 间 中 的 数 , 可 以 排 成 一 列 , zi za za …, 即 [0, 媚 

区 闻 中 的 每 一 个 数 都 在 这 个 序列 中 . 考虑 zn 的 十 进 制 表达 式 


1 2 3 
Tn 一 0.arnanan ………， 


其 中 ar 为 集合 {0,1,… ,9} 中 的 一 个 数 . 现在 构造 一 个 数 y, 它 的 第 n 位 小 数 取 成 1 
或 2, 但 是 它 不 等 于 zn 的 第 n 位 数 om = 1,2,…. 由 于 y 的 第 nn 位 与 xz 的 第 nn 位 
数 不 同 , y 与 zn 是 不 同 的 . 这 样 y 不 可 能 在 zt, za zs,..， 中 , 与 假设 矛盾 .从 而 [0, 1] 
区 间 中 的 数 是 不 可 数 的 . 
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1.2 节 ”概率 模型 


5, 


10. 


11.” 


在 一 个 班 上 , 有 60% 的 学 生 是 天 才 , 70% 的 学 生 喜 欢 巧 克 力 , 40% 的 学 生 既 是 天 才 又 喜 
欢 巧 克 力 .现在 从 班 上 随机 地 选择 一 位 同学 , 请 问 他 既 不 是 天 才学 生 又 不 爱好 巧克力 的 
概率 有 多 大 ? 


.一 个 有 6 个 边 的 骨 子 是 这 样 设 计 的 : 在 转动 贷 子 的 时 候 , 所 有 偶数 边 出 现 的 概率 比 奇数 


边 出 现 的 概率 大 一 倍 , 而 对 于 不 同 的 偶数 边 出 现 的 概率 是 相同 的 , 不 同 的 奇数 边 出 现 的 概 
率 也 是 相同 的 . 现在 设 将 角 子 转动 一 次 , 为 这 个 试验 建立 概率 律 , 并 求 出 点 数 小 于 4 的 概 
率 


.将 一 个 有 4 个 边 的 般 子 持续 地 转动 若干 次 , 直到 第 一 次 出 现 偶数 边 为 止 . 这 个 试验 的 样 


本 空间 是 什么 ? 


， 你 参加 一 个 象棋 比赛 , 必须 与 三 个 对 手下 象棋 . 按 规定 , 只 有 赢 两 场 比赛 , 才 算 你 得 胜 . 假 


定 , 与 每 个 对 手 比赛 的 时 候 , 你 赢 棋 的 概率 是 已 知 的 ， 另外, 你 成 为 得 胜 者 的 概率 与 比赛 
的 次 序 有 关 . 证 明 将 三 位 比赛 对 手中 的 最 弱者 排 在 第 二 位 的 时 候 , 你 成 为 得 胜 者 的 概率 
最 大 , 而 与 其 他 两 位 对 手 的 比赛 次 序 无 关 . 


.样本 空间 9 的 分 割 是 一 组 互 不 相 容 的 事件 组 {51,.… , 5}, 满足 条 件 Q = UP?_15;. 


(a) 证 明 对 任何 事件 4, 下 式 成 立 
P(4) = > P(AN Ss;). 


(b) 利用 (a) 的 结论 , 证 明 对 任何 事件 4, B 和 C, 下 式 成 立 
P(A)= P(ANMB)+P(ANC)+P(ANB° NC) P(ANBNO). 
证 明 公 式 
P((ANB°)U(A°NB))= P(A)+P(B)— 2P(ANB), 


这 个 公式 给 出 4 和 B 中 间 恰 有 一 个 事件 发 生 的 概率 . (与 公式 P(A4UB) = P(A)+P(B) 一 
P(4nB) 相 比较 , 这 个 公式 给 出 A 和 B 中 间 至 少 有 一 个 事件 发 生 的 概率 .) 

邦 费 罗 尼 不 等 式 . 

(a) 对 于 任何 两 个 事件 4 和 B, 证 明 


P(ANMB)> P(A)+P(B)-—1. 
(b) 将 上 式 推广 到 ”个 事件 4A1, 42,… , 4 的 情况 , 证 明 
P(A1NA2N:..N An) > P(A1)+P(A2) + P(A) — (no—1). 


解 由 等 式 PL4nB) = P(4)+P(B) -P(A4nB) 和 不 等 式 P(A4UB) < 1, 立即 可 得 
(a). 至 于 (b), 利用 德 摩根 公式 可 得 到 下 面 的 结果 


1—P(A1NA2N...NAn)=P((AiNA2N...N An)’) 
= P(AiU ASU...U As) 


习 题 49 


< P(Ai) 十 P(42) 十 … 十 P(4n) 
= (1—P(4))+(1— P(A2))+..+ (1 —P(An)) 
=n—P(A1)— P(A2)—:….— P(A4,), 


由 这 个 公式 可 得 到 (b). 
12.” 容 斥 恒等式 . 将 下 面 的 公式 推广 


P(AUB)= P(A)+P(B)— P(AN BB). 
(a) 设 4, B,C 为 三 个 事件 , 则 下 列 恒 等 式 成 立 ， 
P(AUBUC) = P(A)+P(B)+P(C)-—P(ANB)-P(ANC)-P(BNO)+P(ANBNO). 


(b) 设 41, A42,… ,A 为 n 个 事件 . 记 51 = {i ign}, S52 ={(i,iz)|1 <ii< 
i2 < n}, 一 般 地 , 令 Sm 为 满足 条 件 1 ij < <.… < im < n 的 mm 维 指标 
( 订 ,… ,im) 的 集合 , 则 下 列 恒等式 成 立 ， 
P(NE=1Ak) = > P(Ai) 一 》、 P(Aii NM Ai,) 
i€SL1 (i1,i2)ES2 
+ DD P(AhiNAiNAis) .+(-1)" IP(NE 1 As). 
(i1,i2,i3)ES3 
解 (a) 利用 公式 P(XNY) = P(X) + P(Y) - P(X NY) 和 集合 等 式 (4U B)NnC = 
(4NC)U(BNMC) 得 到 


P(AUBUC)= P(AUB)+P(C) —P((4UB)NO) 
=P(AUB)+P(C)—P((A4ANOC)U(BNO)) 
=P(AUB)+P(C)—- P(ANC)—-P(BNC)+P(ANBNOC) 
=P(A)+P(B)— P(ANMB)+P(C) -P(ANOC)-P(BNO) 

+P(ANBNMOC) 
= P(A)+P(B)+P(C)— P(A4NMNB)-P(ANOC)-P(BNO) 
+P(ANBNMO). 


(b) 利用 归纳 法 . 其 主要 推断 部 分 可 以 模仿 (a) 中 的 推导 步骤 . 另 一 种 证 明 方法 可 以 参 

考 第 2 章 末 的 习题 . 
13.” 概 率 的 连续 性 . 

(a) 设 A1, 42,.…， 是 一 个 单调 递增 的 事件 序列 ， 即 对 每 一 个 mw 4% C Anj1. 令 A4= 
UP=l4n 证 明 P(4) = lim P(A). 提示: 将 4 表示 成 可 数 无 限 个 不 相交 的 事件 
之 和 . 

(b) 设 41, 42,.… 是 一 个 单调 递减 的 事件 序列 ， 即 对 每 一 个 mw 4 2 Ani1. 令 4= 
naz=1l4n. 证 明 P(4) = lim P(4。). 提示 : 将 (a) 的 结果 应 用 于 事件 的 补 集 . 
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(c) 考虑 一 个 概率 模型 , 其 样本 空间 是 实数 集合 . 指出 
P(I0,00) = lim P(I0,n]) 和 lim P(ln,o00)) =0. 


解 (a) 令 Bi = 4 对 m> 2 令 B, 二 An As_1. 这 样 定义 的 事件 序列 B 是 互 不 
相 容 的 事件 序列 , 并 且 Un_1B == An, U 吧 ,Bu = A. 利用 可 加 公理 得 到 


P(A) = > P(Br) = lm > P(Br) = lim P(E1Bk) = lim P(An). 
k=1 k=1 
(b) 令 Cn 一 As 和 C= A“. 由 于 Ant1 C An, 可 知 Cn C Cn+l1， 即 事件 序列 Cn 是 上 
升 的 序列 . 进一步 C = 4° = (ns 4-)" = U145 = UY%1C;. 将 (a) 用 于 事件 
序列 Cu, 得 到 


1- PC) =P(4? =P(C) = lim P(Cn) = lim (1—P(4")), 


由 此 可 得 结论 : P(A) = lim P(An). 
(ce) 令 hn = [0,n] 和 4= [0,o0), 利用 结论 (a), 可 得 第 一 个 等 式 . 至 于 第 二 个 等 式 , 只 
需 令 An = [ncol 和 4 = nihn = ,再 利用 结论 (b), 就 可 以 得 到 第 二 式 . 


1.3 节 ”条 件 概率 


14, 


15. 


16. 


17. 


18. 


将 一 个 均匀 的 具有 6 个 面 的 山子 连续 抛 据 两 次 . 36 个 可 能 的 结果 是 等 概率 的 ; 

(a) 找 出 抛掷 出 “一 对 ”的 概率 ; 

(b) 已 知 抛掷 得 到 的 点 数 总 和 小 于 或 等 于 4, 求 抛掷 出 “一 对 ”的 概率 ; 

(c) 求 出 至 少 一 个 仍 子 得 6 点 的 概率 ; 

(d) 已 知 抛掷 得 到 两 个 般 子 的 点 数 不 同 的 条 件 下 , 求 出 至 少 一 个 骨 子 得 6 点 的 概率 . 

将 一 枚 硬币 抛掷 两 次 . 爱丽 丝 声称 在 已 知 头 一 次 得 到 正面 朝 上 的 条 件 下 , 抛 扼 得 到 两 次 正 
面 的 可 能 性 比 已 知 两 次 中 至 少 有 一 次 正面 朝 上 的 条 件 下 的 可 能 性 大 . 这 个 结论 对 吗 ? 当 
硬币 为 对 称 和 不 对 称 的 条 件 下 结论 会 不 会 不 同 ? 能 不 能 将 爱丽 丝 的 推论 方法 推广 呢 ? 
我 们 一 共有 三 枚 硬币 , 其 中 一 枚 的 两 面 都 画 有 正面 的 图 像 ， 另 一 枚 的 两 面 都 画 有 反面 的 图 
像 , 而 第 三 枚 硬币 是 正常 的 硬币 , 两 面 的 图 像 刚好 是 一 正 一 反 . 现在 从 中 随机 地 抽取 一 枚 
硬币 进行 抛掷 , 得 到 正面 朝 上 , 现在 问 这 枚 硬币 的 另 一 面 画 有 反面 图 像 的 概率 有 多 大 ? 
有 一 批 产品 共 100 件 . 按 规定 , 从 中 随机 地 抽取 4 件 产品 进行 检查 , 只 要 这 4 件 产品 中 
有 一 件 不 合格 , 就 拒绝 这 批 产品 , 如 果 这 批 产 品 中 含有 5 件 不 合格 品 , 这 批 产 品 被 拒绝 的 
概率 是 多 少 ? 

令 4 和 B 是 两 个 事件 . 假定 P(B) > 0, 证 明 P(A4n BIB) = P(A4|B). 


1.4 节 ”全 概率 定理 和 贝 叶 斯 准则 


19, 


爱丽 丝 在 一 个 文件 柜 中 寻找 她 的 学 期 报告 ， 她 的 文件 柜 有 若干 个 抽 懂 . 她 知道 她 的 学 期 
报告 在 第 ; 个 抽 懂 的 概率 为 p;( 大 于 0)， 由 于 抽 民 很 乱 , 即使 学 期 报告 真 的 在 第 i 个 抽 
层 内 , 爱丽 丝 在 第 i 个 抽 民 内 找到 学 期 报告 的 概率 为 di. 现在 假定 爱丽 丝 在 某 个 抽 懂 内 


20. 


21. 


22. 


23. 


24. 


25. 


习 题 51 


找 , 不 妨 设 在 第 i 个 抽 展 内 找 , 而 没有 找到 . 证 明 在 这 个 事件 发 生 的 条 件 下 , 她 的 学 期 报 
告 在 第 ; 个 抽 层 内 的 概率 是 
1 pr 者 了 天 2 3 ， 者 7 一 

弱者 利用 策略 在 比赛 中 获 利 ， 鲍 利 思 准备 与 一 位 对 手 进行 两 局 的 棋牌 比赛 .他 希望 找 出 

好 的 策略 以 提高 他 赢 的 概率 . 每 局 棋 的 结果 有 三 种 可 能 : 赢 , 输 , 平局 . 如 果 在 两 局 以 后 的 

积分 相等 , 以 后 就 采用 突然 死亡 法 . 一 直 打下 去 , 直到 一 方 赢得 一 局 , 最 后 决定 胜 负 . 鲍 利 

思 有 两 种 不 同 的 下 棋 风 格 , 保守 的 和 进攻 的 , 并 且 鲍 利 思 在 每 一 局 都 能 自如 地 决定 采用 其 

中 的 一 种 风格 , 而 与 前 一 局 的 风格 无 关 . 当 采 用 保守 的 风格 时 , 和 局 的 概率 为 ps(pa > 0)， 

输 的 概率 为 1 - pa， 当 采用 进攻 的 风格 时 , 他 赢 的 概率 为 pw， 输 的 概率 为 1 ~ pw。 鲍 利 

思 在 突然 死亡 阶段 总 是 采用 进攻 的 风格 , 但 是 在 第 一 、 二 局 可 以 随意 采用 不 同 的 风格 . 

(a) 找 出 下 列 几 种 策略 下 , 鲍 利 思 得 胜 的 概率 
(i) ”在 第 一 、 二 局 采用 进攻 风格 ; 

(i) 在 第 一 、 二 局 采用 保守 风格 ; 
(过 ) 只 要 他 的 分 数 领先 , 就 采用 保守 风格 , 其 他 情况 采用 进攻 风格 . 

(b) 者 pw < 1/2, 那么 不 管 采取 什么 风格 , 鲍 利 思 均 是 一 个 游戏 中 的 弱者 .证明 当 采 用 
策略 《iii) 的 时 候 , 鲍 利 思 可 以 有 好 于 50% 的 赢 棋 机 会 (依赖 于 pw 和 pa 的 值 ). 你 
怎样 解释 这 种 现象 ? 

两 个 人 轮流 从 一 个 坛子 中 随机 地 取出 一 个 球 , 坛子 里 放 有 mm 个 白 球 和 n 个 黑 球 . 首先 从 

坛子 里 取出 白 球 者 为 胜 . 为 计算 第 一 个 取 球 者 获胜 的 概率 , 导出 一 个 递 推 公式 . 

一 共有 8 个 钢 子 , 每 个 炙 子 中 有 mm 个 白 球 和 n 个 黑 球 . 将 钢 子 1 中 随机 地 取出 一 个 球 

放 到 钢 子 2 中 , 再 在 饶 子 2 中 随机 地 取出 一 个 球 放 到 饶 子 3 中 , 如 此 往复 , 直到 最 后 , 从 

铅 子 中 随机 地 取出 一 个 球 . 证 明 最 后 取出 的 球 是 白 球 的 概率 与 第 一 次 取出 白 球 的 概率 

是 一 样 的 , 即 rm/(n 十 m). 

一 共有 两 个 负 子 , 最 初 两 个 镀 子 中 含有 相等 个 数 的 球 . 现在 进行 一 次 球 的 交换 , 即 同时 从 

各 自 的 饶 子 中 随机 地 拿 出 一 个 球 放 到 对 方 的 包子 中 去 . 经 过 4 次 这 样 的 交换 以 后 , 两 个 

钢 子 的 状态 保持 不 变 的 概率 是 多 少 ?所谓 状 态 保 持 不 变 即 原来 在 哪个 鱼子 的 球 还 是 在 哪 

个 铅 子 中 . 

犯人 的 难题 .已 知 三 个 犯人 中 有 两 个 犯人 将 要 被 释放 , 但 在 事情 还 未 公布 之 前 , 被 释放 犯 

人 的 身份 是 保密 的 . 其 中 一 个 犯人 要 求 看 守 人 告诉 他 , 在 他 的 两 个 狼友 中 哪 一 个 将 被 释 

放 . 看 守 拒 绝 了 他 的 要 求 , 理由 如 下 :“ 在 现 有 的 信息 之 下 , 你 被 释放 的 概率 为 2/3， 我 若 

告诉 你 这 个 信息 , 因为 你 和 另 一 个 犯人 之 间 将 确定 有 一 个 人 被 释放 , 所 以 你 被 释放 的 概率 

就 将 变 成 1/2.” 这 个 看 守 所 列 理由 的 错误 在 哪里 ? 

两 个 信封 之 谜 . 你 收 到 两 个 信封 ， 每 个 信封 内 有 若干 钞票 ， 钞票 的 数目 都 是 整数 (以 元 为 

单位 ), 但 两 个 信封 内 的 钱 数 是 不 相同 的 ， 两 个 信封 内 的 钱 数 可 以 认为 是 未 知 的 常数 ， 当 

你 随机 地 打开 一 个 信封 以 后 , 这 个 信封 中 的 钱 就 是 你 的 了 . 为 了 多 拿 钱 . 你 还 可 以 改变 主 

意 , 决定 拿 另 一 个 信封 中 的 钱 . 一 个 朋友 声称 有 一 个 策略 , 可 以 使 拿 到 钱 数 较 大 的 信封 的 

概率 超过 1/2. 其 方法 如 下 : 你 连续 地 抛 撕 一 枚 硬币 , 直到 出 现 正面 出 现 为止 , 令 X 为 你 

抛 撕 硬 币 的 次 数 再 加 上 1/2. 如 果 你 头 一 次 打开 的 信封 里 的 钱 数 少 于 X, 你 就 换 信 封 , 否 
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则 不 换 . 你 的 朋友 的 方法 可 行 吗 ? 

归纳 法 的 悖 论 . 考虑 一 个 命题 , 但 不 知道 命题 的 真 伪 . 如 果 我 们 看 到 许多 例子 与 这 个 命题 
相 匹 配 , 那么 我 们 就 增加 了 对 这 个 命题 为 真 的 信心 . 这 些 推论 方法 称 为 (从 哲学 意义 上 ， 
不 是 从 数学 上 的 ) 归纳 推论 法 . 现在 考虑 一 个 命题 “所 有 的 母 牛 是 白色 的 ”其 等 价 的 命 
题 为 “ 凡 不 是 白色 的 就 不 是 母 牛 ”. 当 我 们 观察 到 几 只 乌鸦 的 时 候 , 我 们 的 观察 显然 与 这 
个 命题 是 相 适 应 的 . 但 是 这 些 观 察 会 不 会 使 得 命题 “所 有 的 母 牛 是 白色 的 ”为 真 的 可 能 
性 更 大 一 些 呢 ? 

为 分 析 这 种 情况 , 我 们 考虑 一 个 概率 模型 : 


4 :所 有 的 母 牛 是 白色 的 ， 
A° : 50% 的 母 牛 是 白色 的 . 


令 p 是 事件 4 发 生 的 先 验 概率 P(A). 我 们 分 别 以 概率 g 和 1 一 g 观察 一 只 乌鸦 和 一 头 
母 牛 . 这 个 观察 与 4 是 否 发 生 是 独立 的 . 假设 0 < p < 1,0 <g<1, 并且 所 有 的 乌鸦 是 
黑色 的 . 

(a) 给 定 事件 B = {观察 到 一 个 黑色 的 乌鸦 }, 求 P(4|B) 的 值 ; 

(b) 给 定 事件 C = {观察 到 一 头 白 色 的 母 牛 }, 求 P(4|C) 的 值 . 

爱丽 丝 和 饮 勃 一 共有 2n + 1 枚 对 称 的 硬币 . 鲍 勃 连续 抛 抑 了 n 十 1 枚 硬币 , 而 爱丽 丝 抛 
掷 n 枚 硬币 . 证 明 鲍 勃 抛 出 的 正面 数 比 爱丽 丝 抛 出 的 正面 数 多 的 概率 为 1/2. 

关于 条 件 概率 的 全 概率 公式 . 设 C4,…… ,Cn 为 n 个 互 不 相 容 的 事件 , 并 且 形 成 样本 空间 
的 一 个 分 割 . 令 4 和 B 是 两 个 事件 , 满足 P(B n Ci) > 0 对 一 切 i 成立. 证 明 下 式 成 立 


P(A|B)= > P(Ci|B)P(A|IBN Ci). 
解 ”首先 , 下 式 成 立 , 
P(4nB)=>P(4nB)nci)， 


再 利用 乘法 规则 得 到 
P((ANB)NC:i) = P(B)P(Ci|B)P(AIB N Oi). 
综合 两 个 等 式 得 到 


P(4nB)= 》 P(B)P(CalB)P(4IBncs)， 
?一 工 

上 式 两 边 除 以 P(B) 并 利用 公式 P(4|B) = P(4mn B)/P(B), 就 可 以 得 到 关于 条 件 概率 
的 全 概率 公式 . 
设 4, B 为 两 个 事件 , 满足 P(4) > 0 和 P(B) > 0. 我 们 称 事件 B 暗 示 事 件 4, 如 果 它 们 
满足 P(4|B) > P(4); 车 它们 满足 P(4|B) < P(A) 则 称 事 件 B 并 不 暗示 事件 A. 
(a) 事件 B 暗示 事件 4 的 充 要 条 件 是 事件 4 上 暗示 事件 B. 
(b) 假设 P(B°) > 0. 证 明 B 暗示 4 的 充 要 条 件 是 B° 不 暗示 A. 
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(c) 假定 我 们 已 经 知道 一 个 宝物 藏匿 于 两 个 地 点 之 一 , 其 概率 分 别 为 6 和 1 - 6. 假定 
已 知 这 个 宝物 藏匿 于 第 一 个 地 点 , 在 那个 地 点 进行 发 据 , 找到 它 的 概率 为 p > 0. 现 
在 证 明 , 假定 我 们 在 第 一 个 地 点 进行 发 据 , 而 没有 找到 这 个 宝物 , 这 个 事件 “暗示 ” 
宝物 在 另 一 个 地 点 . 

解 (a) 利用 等 式 P(A4|B) = P(4nB)/P(B) 可 知 , B 暗示 4 的 充 要 条 件 是 P(A4NB) > 
P(A)P(B), 利用 对 称 性 可 知 , 这 个 条 件 也 是 4 暗示 B 的 充 要 条 件 . 

(b) 由 于 P(B) 十 P(B°) = 1, 我 们 有 

P(B)P(A) +P(B°)P(A) = P(A) = P(B)P(A|B) + P(B°)P(A|B®), 
这 个 等 式 蕴涵 
P(B”)(P(4) — P(A|B")) = P(B)(P(AIB) — P(A)). 
这 样 , P(4|B) - P(4) > 0(B 暗示 4) 成 立 的 充 要 条 件 为 P(A) -P(A|B°) > 0(B* 
并 不 暗示 4). 
(c) 设 4 和 B 由 下 式 给 出 


4 = {宝物 是 在 第 二 个 地 点 }, 
B = {在 第 一 个 地 点 并 未 发 现 宝 物 }. 
利用 全 概率 公式 , 我 们 得 到 
P(B)= P(A°)P(BIA) + P(A)P(B|IA) = 8(1 —p) + (1— 8), 
故 
P(ANB) 1 一 6 1-8 
P(B) 61L-DD+L-0) TI 一 pp 
这 说 明 B 暗示 4. 


P(A|IB) = >1-8= P(A), 


1.5 节 ”独立 性 
30. 有 一 天 , 猪手 带 着 他 的 两 头 猎犬 跟踪 某 动 物 的 踪迹 . 他 们 来 到 一 个 三 岔口 . 猎手 知道 两 条 


31. 


猎犬 会 相互 独立 地 以 概率 p 找到 正确 的 方向 . 因此 他 让 两 条 猎犬 选择 它们 的 方向 . 如 果 
两 头 猎犬 选 择 同一 方向 , 他 就 沿 着 这 个 方向 走 . 车 两 头 猎犬 选择 不 同 的 方向 , 他 就 随机 地 
选择 一 个 方向 走 . 这 个 策略 是 否 比 只 让 一 条 猎犬 选择 方向 优越 ? 

在 躁 声 通道 中 的 通信 . 一 个 二 进 信 号 (0 或 1) 在 噪声 通道 内 传输 . 假设 通道 以 概率 p 传 

送信 号 0, 以 概率 1 一 p 传送 信号 1. 错误 传输 的 概率 分 别 为 eo。 和 ei ( 见 图 1.18). 在 传输 

中 , 不 同 信号 的 误差 是 相互 独立 的 . 

(a) 问 能 够 正确 地 传送 一 个 随机 地 选择 的 第 & 个 信号 的 概率 有 多 大 ? 

(b) 假定 传送 的 信号 串 为 1011, 这 个 信号 串 能 够 被 正确 地 传输 的 概率 有 多 大 ? 

(c) 为 了 提高 传输 的 可 靠 性 , 每 个 信号 重复 传输 3 次 , 译 码 规则 采用 多 数 决定 制 . 换 言 
之 , 在 传送 信号 0(1) 的 时 候 , 实际 上 传送 的 是 000(111). 在 译 码 的 时 候 , 采用 少数 
服从 多 数 的 原则 , 例如 收 到 的 信号 为 010, 则 译 成 信号 0, 若 收 到 的 信号 为 110, 则 译 
成 信号 1. 作 了 这 样 的 编码 和 译 码 的 规定 以 后 , 信号 0 被 正确 传输 的 概率 有 多 大 ? 
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(d) 在 (c) 中 , eo 为 何 值 才 能 使 信号 0 被 正确 传输 的 概率 增 大 ? 
(e) 假设 编码 和 译 码 的 规则 采用 (c) 中 的 规定 ， 当 接收 端 得 到 101 的 时 候 , 对 方 发 信号 
0 的 概率 有 多 大 ? 


1 1 
1—e 


图 1.18 ”二 进 通 信和 通道 中 的 传输 误差 概率 

国王 的 兄弟 姐妹 . 国王 只 有 一 个 兄弟 或 姐妹 , 那么 国王 有 一 个 兄弟 的 概率 有 多 大 ? 此 处 假 
定 国王 的 母亲 生男 或 生 女 的 概率 为 1/2, 而 且 各 次 生育 是 相互 独立 的 . 注意 回答 此 问题 的 
时 候 , 你 必须 说 清楚 附加 的 假设 . 

利用 有 偏 的 硬币 作出 无 偏 的 决策 .爱丽 丝 和 鲍 勃 想 利用 一 枚 均匀 的 硬币 来 决定 他 们 去 看 
歌剧 还 是 看 电影 . 不 幸 的 是 , 他 们 只 有 一 枚 有 偏 的 硬币 〈 而 且 他 们 并 不 知道 偏 的 程度 ). 怎 
样 利 用 一 枚 有 偏 的 硬币 作出 无 偏 的 决策 , 即 以 1/2 的 概率 看 电影 , 1/2 的 概率 看 歌剧 呢 ? 
一 个 电子 系统 由 许多 相同 的 元 件 构成 . 每 个 元 件 有 效 的 概率 为 p, 并 且 各 元 件 之 间 是 否 有 
效 是 相互 独立 的 . 这 些 元 件 由 三 个 子 系统 构成 ( 见 图 1.19)， 这 个 系统 称 为 有 效 的 , 如 果 
在 图 中 由 4 到 B 有 一 条 通路 , 且 通 路 上 每 一 个 元 件 是 有 效 的 . 这 与 图 中 的 三 个 子 系 统 同 
时 有 效 是 等 价 的 . 三 个 子 系统 同时 有 效 的 概率 有 多 大 ?9 


Lo 1 1 


1.19 “一 个 由 许多 相同 元 件 构成 的 系统 , 是 三 个 子 系统 1, 2, 3 串联 而 成 . 这 个 系统 称 
为 有 效 的 , 如 果 存 在 由 4 到 B 的 一 条 通路 , 日 通 路 上 的 每 一 个 元 件 都 是 有 效 的 


nn 选 的 系统 的 可 靠 性 . 一 个 系统 由 n 个 相同 元 件 组 成 , 其 中 每 一 个 元 件 有 效 的 概率 为 

p, 并 且 其 他 元 件 有 效 与 否 是 相互 独立 的 . 这 个 系统 称 为 n 选 系统 , 如 果 这 nn 个 元 件 中 

至 少 有 上 个 元 件 有 效 , 那么 这 个 系统 才 有 效 . 这 个 n 选 上 系统 有 效 的 概率 有 多 大 ? 

一 个 电力 供应 系统 从 n 个 电厂 得 到 电力 供应 城市 用 电 ， 由 于 种 种 原因 , 电厂 i 以 概率 ps 

中 断 供电 , 而 且 各 电厂 之 间 是 相互 独立 的 . 

(a) 假定 每 个 电厂 在 供电 的 时 候 能 够 单独 供应 全 市 的 用 电 . 问 这 个 城市 处 于 全 市 停电 的 
概率 有 多 大 ? 

(b) 假定 有 两 个 以 上 电厂 供电 的 时 候 , 才能 避免 全 市 停电 . 间 全 市 停电 的 概率 有 多 大 ? 


@@ 这 个 概率 也 是 整个 系统 有 效 的 概率 . 一 一 译 者 注 
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有 一 个 手机 服务 系统 , 它 有 ni 个 电话 用 户 (有 了 时候 需 要 电话 连接 ) 和 n 个 数据 用 户 (有 
时 候 需 要 数据 连接 )， 我 们 估计 在 给 定 的 时 刻 , 每 个 电话 用 户 需 要 系统 服务 的 概率 为 pi， 
每 个 数据 用 户 需 要 系统 服务 的 概率 为 pz. 假定 各 用 户 的 需求 是 相互 独立 的 .已 知 一 个 电 
话 用 户 的 数据 传输 率 为 mi 比特 / 秒 , 一 个 数据 用 户 的 数据 传输 率 为 ra 比特 / 秒 . 而 手机 
服务 系统 的 容量 为 比特 / 秒 . 用 户 的 需求 超过 系统 容量 的 概率 是 多 少 ? 

点 数 问题 ." 泰 里 思 和 温 迪 在 玩 18 个 洞 的 高 尔 夫 球 , 其 奖金 为 10 元 钱 . 他 们 各 自 赢得 一 
个 洞 的 概率 分 别 为 p( 秦 里 思 ) 和 1 一 p( 温 迪 ), 并 且 各 个 洞 的 输赢 是 相互 独立 的 . 打 完 10 
个 洞 的 时 候 , 他 们 的 比分 为 4:6, 温 迪 占 上 风 . 此 时 泰 里 思 接 到 一 个 紧急 电话 , 必须 回 单位 
工作 . 他 们 决定 按照 他 们 打 完 比赛 时 候 赢 得 比赛 的 概率 分 割 奖金 . 假定 pr(pw) 代表 在 
目前 10 个 洞 的 比分 4 : 6 的 条 件 下 , 完成 18 个 洞 的 比赛 后 泰 里 思 ( 温 迪 ) 领先 的 概率 ， 
则 泰 里 思 应 得 10pr/(pr + pw) 元 , 而 温 迪 应 得 10pw / (pr + pw) 元 . 秦 里 思 应 该 分 得 
多 少 钱 ? 

注 这 是 著名 的 点 数 问题 的 一 个 例子 .这 个 问题 在 概率 论 发 展 历史 上 起 着 很 重要 的 
作用 . 这 是 加 瓦 拉 德 . 梅 尔 (Chevalier de Mer6) 于 17 世纪 向 帕斯卡 (Pascal) 提出 的 
赌博 中 断 情况 下 赌 本 的 分 割 问 题 . 对 此 问题 , 帕斯卡 提出 这 样 的 想法 : 赌 本 分 割 问题 应 当 
按 中 断 的 条 件 下 双方 各 自 赢得 赌博 的 条 件 概率 进行 分 配 ， 帕斯卡 在 某 些 特殊 的 情况 下 解 
决 了 这 个 问题 , 并 且 通 过 与 费 马 的 通信 激发 了 更 多 的 想法 和 与 概率 有 关 的 研究 课题 . 

有 一 个 班 的 学 生 的 出 勤 率 很 低 , 这 使 教授 很 苦恼 . 她 决定 若 ” 个 学 生 中 出 勤 人 数 少 于 大 
个 时 就 不 上 课 . 现在 假定 各 个 学 生 独 立地 决定 自己 是 否 出 勤 , 在 好 天 气 的 日 子 里 , 每 个 学 
生出 勤 的 概率 为 po, 在 坏 天 气 的 日 子 里 , 每 个 学 生出 勤 的 概率 为 ps. 现在 假定 某 一 天 是 
坏 天 气 的 概率 为 已 知 , 计算 这 位 教授 在 这 一 天 能 够 讲课 的 概率 . 

有 一 枚 不 均匀 的 硬币 , 在 抛 指 的 时 候 , 正面 出 现 的 概率 为 p, 反面 出 现 的 概率 为 1 - p. 令 
qn 为 n 次 独立 抛掷 后 得 到 偶数 次 正面 向 上 的 概率 . 导出 一 个 联系 g, 和 g,_1 的 递 推 公 
式 , 并 利用 递 推 公式 导出 g,, 的 公式 


gn = (1+ (1— 2p)") /2. 


设 在 一 个 轮子 上 , 具有 连续 刻度 , 不 妨 设 刻度 的 范围 为 (0, 1). 每 次 转动 这 个 轮子 , 得 到 一 
个 数 . 现在 设 有 无 穷 多 个 人 参加 这 个 游戏 , 第 i 个 人 转动 以 后 , 得 到 一 个 数 ， 只 有 他 得 到 
的 数 比 他 前 面 诸 人 所 得 到 的 数 都 小 时 , 他 才 不 被 淘汰 ， 令 N 为 第 一 个 人 被 淘汰 的 时 刻 . 
对 任意 n, 计算 P(N = n). 

赌 徒 破产 问题 . 一 个 赌 徒 进行 一 系列 相互 独立 的 押 注 活动 . 每 次 押 注 , 他 以 概率 p 赢 1 元 
钱 , 以 概率 1 一 p 输 1 元 钱 . 开始 押 注 时 他 及 元 钱 , 当 他 输 光 钱 的 时 候 , 或 者 他 的 累计 
钱 数 为 n 元 的 时 候 , 他 就 停止 押 注 . 问 他 以 累计 钱 数 为 n 元 而 停止 押 注 的 概率 有 多 大 ? 
解 用 4 表示 以 累计 钱 数 为 n 元 而 停止 押 注 的 事件 , 用 FF 表示 第 一 次 押 注 而 赢得 1 元 
钱 的 事件 . 用 wn 表示 他 开始 的 时 候 具 有 元 钱 的 条 件 下 事件 4 发 生 的 概率 . 利用 全 概 


ws = P(AIF)P(F) + P(AIF)P(F) = pP(AIF) + gP(AIF), 0<k<n, 


Q@ 国内 称 为 赌 本 分 割 问题 . 一 一 译 者 注 
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其 中 g = 1 一 p. 利用 过 去 押 注 结果 和 以 后 的 押 注 是 相互 独立 的 , 第 一 次 押 注 赢得 1 元 钱 ， 
故 P(A4|F) = wk+l;, 类 似 可 得 P(A|F°) = wk_1， 这 样 我 们 得 到 wx = puuk+i 十 quok_1， 
这 个 结果 可 以 写成 


Wk+1 — Wk = 7(Wk Oo Wk-1), 0O<k<n, 
其 中 ”= gq/p. 利用 这 个 递 推 公式 和 边界 条 件 wo = 0 和 wn = 1 可 以 解 得 wnt1 
Wk+1 三 WE 十 rk. 
从 而 得 到 
Wk41 = WR 十 reaol = Wp 1 二 7 1 二 TE 一 Ma01 十 TwI 十 十 PRI. 


上 面 的 和 号 可 以 分 成 7 = 1(p = gq) 和 "+ 关 1(p 冯 9) 两 种 情况 计算 出 来 , 得 到 


_ 
wo 二 一 ww 若 p 关 9， 
haw1, 车 p = g. 
由 于 ww = 1, 利用 上 式 可 以 得 到 wi， 


1 一 7 
之 若 p 天 9， 
1 一 1 
ni 若 p = 9， 
从 而 
工 一 7 
工 一 rm 
k 
二 ， 若 p = gq. 


入 
令 4 和 B 为 相互 独立 的 事件 . 利用 事件 独立 性 的 定义 证 明 下 面 的 结论 : 
(a) 事件 4 和 事件 B° 相互 独立 ; 
(b) 事件 4° 和 事件 B* 相互 独立 . 
解 (a) 事件 4 可 以 表 成 两 个 互 不 相 容 的 事件 4m B* 和 4AnB 的 并 . 利用 概率 的 可 加 
性 公理 和 事件 4 和 事件 B 的 相互 独立 性 , 得 到 


P(A)=P(ANB)+P(ANB°) = P(A)P(B) + P(AN B°). 


车 p 上 q， 


Wk 一 


由 此 可 知 
P(ANB°)= P(A)(1— P(B)) = P(A)P(B’) 
即 4 和 Be 相互 独立 . 
(b) 由 4 和 B 的 相互 独立 性 , 利用 (a) 推 得 4 和 Be 的 相互 独立 性 . 再 将 结论 (a) 应 
用 于 B* 和 4, 得 到 B° 和 4° 的 相互 独立 性 . 
令 4, B,C 为 相互 独立 的 事件 , P(C) > 0. 证 明 4 和 B 在 给 定 C 的 条 件 之 下 是 相互 独 
立 的 . 


45.” 


46.* 


解 ”我 们 有 
P(ANBNMO) 
P(O) 
— P(AP(B)P(C) 
P(C) 
= P(A4)P(B) 
= P(AIC)P(BIC), 
由 此 可 知 4 和 B 在 给 定 C 的 条 件 之 下 是 相互 独立 的 . 在 一 系列 的 等 式 中 , 第 一 个 等 式 
是 由 条 件 概率 之 定义 所 得 , 第 二 个 等 式 是 由 事件 4, B,C 的 独立 性 , 第 四 个 等 式 是 分 别 利 
用 了 4 与 C 的 独立 性 和 B 与 C 的 独立 性 . 
令 A1, 42, 4a, 44 为 相互 独立 的 事件 , P(A3 丫 44) > 0. 证 明 


P(A1 U A2|As Nn 44) 一 P(A1 U A2). 


P(ANBIC) = 


解 我 们 有 
_ P(A1 门 4s 站 44) 加 P(A1)P(As)P(A4) 加 
NA GnA) ~ PUP ~ 
类 似 地 可 以 得 到 P(4z|4s n 44) = P(A2) 和 P(Ain 4a|4asnm 44) = P(4i mn 42), 最 后 得 


到 ， 


P(Ai1). 


P(A1U 4az|4s mn 44) = P(Ai|AsN As)+P(Az|AsN 44) ~— P(A1N A»|As N A4) 
= P(Ai1)+P(A42)— P(A1N 42) 
一 P(A1 U A2). 


拉 普 拉 斯 继承 准则 . 设 有 m + 1 个 盒子 , 第 个 盒子 内 放 有 大 个 红 球 和 mm 一 个 白 球 ， 
其 中 & 由 0 变 到 m. 现在 随机 地 取 一 个 盒子 (每 个 盒子 等 概率 被 取 到 ), 独立 地 、 有 放 回 
地 从 这 个 盒子 内 抽取 一 个 球 , 一 共 抽取 n 次 . 假定 这 n 次 抽取 的 球 都 是 红 球 ， 问 从 这 个 
盒子 内 再 抽取 一 个 球 , 这 个 球 为 红 球 的 概率 有 多 大 ? 当 m 很 大 的 时 候 , 这 个 概率 会 怎样 
变化 ? 
解 ”记忆 为 第 nn 十 1 次 抽 得 红 球 的 事件 R, 表示 前 ”次 都 抽 得 红 球 的 事件 . 直观 上 看 ， 
连续 抽出 红 球 说 明 被 抽取 盒子 里 含有 很 多 红 球 , 因此 P{( 召 Rn) 比较 靠近 1. 事实 上 , 拉 
普 拉 斯 利用 此 例 去 计算 给 定 5000 年 中 每 天 日 出 的 条 件 下 明天 日 出 的 概率 . (我 们 不 清楚 
拉 普 拉 斯 多 么 严肃 地 对 待 这 个 计算 问题 , 但 是 这 已 成 为 概率 论 发 展 过 程 中 的 一 个 传说 .) 
我 们 有 
_ P(ENR,) 
P(E|Rn) = BPR) 


再 利用 全 概率 公式 , 得 到 
Ce、 k\” 1 [AN 
P(Rn) = 》 P( 选 中 了 第 个 盒子 ) | 一】 = 一 一 一 上 ， 
和 (局 > (x) 


1 mm 天 nt+1l1 
k=0 
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对 于 较 大 的 m, 可 将 和 数 看 成 积分 的 近似 值 : 


mm n mm n+1l 
PuJ= 元 (二 ) ~ mv ordaz= i Ti 
相似 地 ， 
P(ENRn) = P(Rnt1) 万 二 7， 
下 
P(BIRn) ~ 卫士 工 . 
n++2 


当 m 和 n 很 大 的 时 候 , 再 抽 得 一 个 红 球 是 几乎 确定 的 . 
47.” 二 项 系数 公式 和 帕斯卡 三 角形 . 
(a) 在 抛 据 n 枚 硬币 的 试验 中 , 将 出 现 k 次 正面 向 上 的 结果 数 记 作 ("), 利用 (") 的 这 
个 定义 导出 帕斯卡 三 角形 中 所 具有 的 递 推 关系 ( 见 图 1.20); 
(b) 利用 (a) 中 推导 出 来 的 递 推 关系 和 归纳 法 , 证 明 下 面 的 公式 


ny nl 
Ek) kl(n—k)! 


解 (a) 可 以 有 两 种 方法 产生 含有 k 次 正面 向 上 的 序列 (0 < < 加) 
(1) 前 n 一 1 次 抛 挪 硬币 的 试验 中 出 现 次 正面 向 上 , 第 ”次 抛掷 的 时 候 出 现 反面 向 
上 . 这 种 序列 一 共有 ("1) 个 
(2) 前 n 一 1 次 抛 括 硬 币 的 试验 中 出 现 -1 次 正面 向 上 , 第 n 次 抛 据 的 时 候 出 现 正面 
向 上 . 这 种 序列 一 共有 ("1) 个 . 


这 样 ， 
人 _ (CD +(CF), k=1,2,.… ,nl, 
1 当天 = 0,n. 
这 个 公式 总 结 了 帕斯卡 三 角形 中 提示 的 递 推算 法 .( 见 图 1.20) 
(b) 现在 利用 (a) 中 的 公式 以 及 归纳 法 导出 下 面 的 公式 


ny nl! 
Ek) kl(n— Ek)! 


对 于 ”= 1 利用 约定 0! = 1 我 们 得 到 (!) = (1) = 1, 即 对 于 n = 1 公式 是 成 立 
的 . 现在 假定 公式 对 于 n 一 1 以 前 的 一 切 正 整 数 都 成 立 . 转 而 讨论 ”的 情况 . 对 于 
k= 1,... ,nC—1, 由 下 式 


本 (人 一 1 人 一 1T! 
Rin 1 Ett Rn 1i AR) 
_k nl! n—k nl! 
aR n Rm! 

nl 


~ kl Ek) 
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看 出 , 公式 是 成 立 的 . 而 对 于 有 = 0,m 的 情况 , 公式 也 显然 成 立 . 这 样 我 们 用 归纳 法 
证 明了 公式 对 一 切 n 是 成 立 的 . 


(0) ! 
(0) (2) ! 1 
(0) (1) (2) 1! 2 1 
(0) G1) (2) (3) 1! 3 31 
(0) GD) (3) (3) (2) ! 4 0 4 


1.20 ”利用 帕斯卡 三 角 序 贯 地 计算 二 项 系数 的 方法 ， 左边 的 三 角 阵列 上 的 数 就 是 在 右 
边 阵列 上 的 相应 的 数 . 而 右边 的 三 角 阵 列 上 的 数 , 除了 每 一 排 的 两 端的 数 都 是 
1 以 外 , 其 余 位 置 是 的 数 都 是 上 一 排 的 两 个 相 邻 数 的 和 


48.”Borel-Cantelli 引 理 . 考虑 一 个 无 穷 试验 序列 . 假定 第 i 次 试验 成 功 的 概率 为 pi. 记 六 
为 试验 序列 中 没有 一 次 成 功 的 事件 , 并 记 7 为 试验 序列 中 具有 无 限 多 次 成 功 的 事件 . 
(a) 假定 试验 是 相互 独立 的 , 并 且 学 pi = co. 证 明 P(NW) =0 和 了 P(D = 1 
(b) 假定 > 2 pi < co. 证 明 P( 门 = 0. 
解 (a) 由 事件 N 发 生 可 知 前 ”次 试验 中 没有 一 次 成 功 , 因此 


P(N) < [I -2 
i=1 


两 边 取 对 数 , 得 到 
logP(N) < Ylog(1 — pi) < (~psi). 
1 一 1 i=1 


上 式 中 令 n 一 co, 我 们 得 到 log P(N) = -oo, 或 PLN) = 0. 

记 Ln 表示 这 个 无 穷 次 试验 中 只 有 有 限 次 成 功 并 且 最 后 一 次 成 功 是 在 m 次 试 
验 . 由 于 我 们 已 经 证 明了 P(N) = 0. 不 难 验 证 P(Zn) = 0. 又 由 于 事件 I* 是 不 相 
容 的 事件 序列 Ln,(n > 1) 和 N 的 并 . 我 们 得 到 


P(1°) = P(N)+ 3 P(L») = 0， 
n=1 


和 P(T) = 1. 

(b) 令 5; 表示 第 i 次 试验 成 功 的 事件 . 对 某 个 固定 的 n 和 每 一 个 > n, 定义 瓦 表示 
在 时 刻 n 以 后 在 i 时 刻 第 一 次 成 功 的 事件 , 显然  C 5S;. 最 后 令 An 表示 在 时 刻 
n 以 后 至 少 有 一 次 成 功 的 事件 . 显然 事件 4。 是 不 相 容 的 事件 序列 {所 :i> 由 之 
并 . 这 样 


Pn < Par) -Pe ( Uj 5 = Dy P(R)g > P(5)= Dp 


i=n 二 1 i=n+1 i=n 二 1 i 二 nt 十 1 


60 


第 1 章 样本 空间 与 概率 


由 于 泊 %y1 Pi < co, 令 n 一 co, 上 式 右边 趋 于 0, 这 说 明 P(D = 0. 


1.6 节 ”计数 法 


49 


50, 


51, 


52. 


53, 


54. 


55. 


56. 


57, 


58. 


. 德 . 梅 尔 之 谜 . 独立 地 抛 指 一 个 6 面体 山 子 , 共 三 次 . 问 下 面 的 事件 中 哪个 事件 可 能 性 大 

一 些 , 和 数 为 11 还 是 和 数 为 12? (这 个 问题 是 17 世纪 法 国 贵族 德 . 梅 尔 向 他 的 朋友 帕 

斯 卡 提出 的 .) 

生日 问题 , 一 共有 n 个 人 参加 一 个 聚会 . 假定 每 个 人 的 生日 是 相互 独立 地 分 布 的 , 并 且 

均匀 地 分 布 在 一 年 中 的 某 一 天 , 并 且 排除 了 2 月 29 日 这 一 特殊 的 日 子 (假定 没有 人 在 这 

一 天 生日 ). 问 没 有 任何 两 人 在 同一 天 生日 的 概率 有 多 大 ? 

有 一 个 坛子 中 含有 m 个 红 球 和 n 个 白 球 . 

(a) 我 们 随机 地 从 中 抽 走 两 个 球 ， 写 出 样本 空间 并 计算 抽出 两 个 不 同 颜色 的 球 的 概率 . 
计算 的 时 候 利用 两 种 不 同 的 方法 ; 一 种 方法 是 利用 离散 均匀 分 布 率 的 计数 方法 , 另 
一 种 方法 是 利用 序 贯 的 基于 乘积 规则 的 方法 . 

(b) 我 们 转动 一 个 具有 3 条 边 的 骨 子 , 每 条 边 上 分 别 标明 1, 2, 3. 如 果 出 现 k, 则 从 坛 
子 中 取出 大 个 球 , 放 在 一 边 . 写 出 样本 空间 并 利用 全 概率 公式 计算 取出 的 球 全 是 红 
色 的 概率 . 

经 过 充分 洗 牌 的 一 副 52 张 的 扑克 牌 中 , 从 上 到 下 地 一 张 一 张 地 翻 牌 , 求 出 第 13 张 牌 是 

第 一 次 遇 到 的 老 K 的 概率 . 

一 共有 90 个 学 生 , 其 中 包括 乔 和 简 . 现在 将 他 们 随机 地 分 成 3 个 班 (每 个 班 30 人 ). 求 

乔 和 简 被 分 在 同一 个 班 内 的 概率 . 

有 20 辆 小 汽车 停放 在 一 个 停车 场 . 这 20 辆 车 中 有 10 辆 是 美国 制造 , 另外 10 辆 是 其 他 

国 制造 . 停车 场 是 一 字 排 开 的 共有 20 个 车 位 . 在 某 一 天 内 这 些 车 辆 的 停放 是 完全 随机 的 . 

(a) 一 共有 多 少 种 不 同 的 车 辆 停放 方法 ? 

(b) 这 些 车 互相 错位 地 停放 的 概率 有 多 大 ( 既 没有 两 辆 美国 车 相 邻 , 也 没有 两 辆 外 国 车 
相 邻 )? 

在 一 个 8 x 8 的 象棋 盘 中 放 上 8 个 车 (国际 象棋 的 棋子 是 放 在 方 格子 内 , 不 是 放 在 交叉 

线 上 的 !). 假定 所 有 放 法 都 是 等 可 能 的 . 求 出 这 些 车 是 安全 的 概率 (在 同一 行 上 不 能 有 两 

个 车 , 在 同一 列 上 也 不 能 有 两 个 车 .) 

某 个 系 一 共 开设 8 门 低 水 平 课程 L1, L2,… ,Ls 和 10 门 高 水 平 课程 Hi, FH2,… , Ho. 

一 个 有 效 的 课程 表 由 4 门 低 水 平 课 程 和 3 门 高 水 平 课程 组 成 . 

(a) 一 共 可 以 排出 多 少 种 不 同 的 课程 表 ? 

(b) 假定 课程 包 ,…. , Hs 必须 以 万 为 先 修 课程 ,He,:…. ,Hio 必须 以 和 Ls 为 先 
修 课程 . 问 在 这 样 的 条 件 下 可 以 排出 多 少 种 不 同 的 课程 表 ? 

利用 26 个 字母 能 够 写 出 多 少 6 个 单词 的 句子 , 其 中 每 个 字母 恰好 出 现 一 次 ”所谓 一个 

单词 就 是 指 一 个 非 空 的 字母 序列 .当然 这 些 单词 和 句子 可 以 是 毫 无 意义 的 . 

从 一 副 充分 洗 牌 的 扑克 牌 中 取出 上 面 的 7 张 牌 . 求 出 下 列 事件 的 概率 : 

(a) 7 张 牌 中 恰好 含有 3 张 A; 

(b) 7 张 牌 中 恰好 含有 2 张 K; 

(c) 7 张 牌 中 恰好 含有 3 张 A, 或 者 怡 好 含有 2 张 K, 或 者 恰好 含有 3 张 A 和 2 张 K. 


习 题 61 


59.。 停 车场 停 有 100 辆 车 , 其 中 辆 是 有 问题 的 , 按 柠檬 法 案 应 退回 厂家 的 . 现在 从 中 随机 
地 选 出 m 辆 进行 试车 , 问 其 中 恰 有 n 辆 问题 车 的 概率 有 多 大 ? 

60. 将 一 副 52 张 充分 洗 牌 的 扑克 牌 分 发 给 4 个 玩家 . 求 每 个 玩家 得 到 一 张 A 的 概率 . 

61.” 超 几何 概率 . 一 个 坛子 里 边 放 有 n 个 球 , 其 中 m 个 是 红 球 和 nm 个 蓝 色 球 . 现在 从 
坛子 中 随机 地 、 无 放 回 地 抽取 上 个 球 (无 放 回 的 意思 在 下 一 次 抽取 球 的 时 候 已 经 抽出 的 
球 不 再 放 回 坛子 ) 问 抽出 的 个 球 中 恰 含 i 个 红 球 的 概率 有 多 大 ? 
解 “ 样 本 空间 由 (中 种 从 坛子 中 选择 个 球 的 方法 组 成 ， 与 我 们 感 兴趣 的 事件 有 关 的 
选择 方法 数 可 以 这 样 计算 ; 在 m 个 红 球 中 选 i 个 球 有 (m) 种 选 法 , 从 nn 一 mm 个 蓝 色 球 
中 选 一 i 个 球 有 (生字 ) 种 选 法 . 这 样 一 共有 (”) (*7) 种 选 法 . 由 于 各 种 选 法 都 是 等 


可 能 的 , 相关 的 概率 为 
m\ /nm 
2 ki 


n 9 
k 
其 中 i > 0 满足 条 件 i < m,i < k, 且 有 一 i<<n 一 mm. 对 于 其 他 的 i 相应 的 概率 为 0. 
62.” 存在 不 可 区 分 的 对 象 的 排列 数 . 在 对 ”个 对 象 进行 排列 的 时 候 , 车 遇 到 某 些 对 象 之 间 不 


可 区 分 , 此 时 会 造成 不 同 的 排列 之 间 不 可 区 分 . 因此 这 种 具有 不 可 区 分 对 象 的 排列 数 会 
小 于 nl. 例如 三 个 不 同 的 字母 A, B, C 共有 6 种 不 同 的 排列 


ABC, ACB, BAC, BCA, CAB, CBA， 
但 是 字母 A, D 和 D 只 有 3 种 不 同 的 排列 
ADD, DAD, DDA. 


(a) 假定 n 个 对 象 中 有 个 是 不 可 区 分 的 . 证 明 可 区 分 的 对 象 的 序列 一 共有 nl/k! 个 . 

(b) 现在 假定 一 共有 7 种 不 可 区 分 的 对 象 类 型 , 而 第 i 种 类 型 内 , 一 共有 k; 个 不 可 区 分 
的 对 象 . 证 明 可 区 分 的 对 象 排 列 数 为 

nl! 
有 
解 (a) 不 妨 将 n 个 对 象 中 & 个 不 可 区 分 的 对 象 D 记 为 Di,… ,Ds. 若 顾 及 它们 的 下 标 ， 
这 8 个 原本 不 可 区 分 的 对 象 就 是 可 区 分 了 . 将 这 些 对 象 进行 排列 , 一 共有 nl 个 不 
同 的 排列 . 车 把 这 些 原本 不 可 区 分 的 对 象 的 下 标 去 挤 ， 则 这 些 排 列 中 每 一 个 排列 都 
有 一 些 排列 与 这 个 排列 不 可 区 分 . 这 些 不 可 区 分 的 排列 形成 一 个 类 , 这 个 类 中 一 共 
有 &! 个 排列 . 这 样 , n! 个 排列 可 以 分 成 n!1/k! 个 类 , 每 个 类 内 的 排列 都 是 不 可 区 分 
的 . 这 样 , 可 区 分 的 对 象 序列 数 就 是 n!/k!. 例如 4, D, D 三 个 对 象 的 排列 有 3! = 6 
个 
ADD, ADD, DAD, DDA, DAD, DDA, 

这 6 个 排列 种 有 些 排列 是 不 可 区 分 的 . 可 以 将 它们 分 成 n!/k! = 31/2! = 3 个 类 


{ADD, ADD}, {DAD, DDA}, {DAD, DDA)}, 
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而 每 个 类 内 含有 k! = 2! = 2 个 不 可 区 分 的 排列 . 


(b) 一 种 办 法 是 将 (a) 中 的 方法 进行 推广 ， 对 每 一 个 类 别 i, 有 ki 个 不 可 区 分 的 对 象 ， 


单 就 这 个 不 可 区 分 的 对 象 而 言 , 就 有 k! 种 不 可 区 分 的 排列 . 由 于 一 共有 7 类 不 可 区 
分 的 对 象 , 这 样 每 一 个 排列 , 都 会 属于 一 个 具有 kilk2!.… kr! 个 排列 的 大 类 , 在 这 个 
大 类 内 的 所 有 排列 都 是 不 可 区 分 的 . 这 样 可 以 区 分 的 对 象 序列 的 个 数 就 是 
nl 

. 另 一 种 考 虚 的 方法 如 下 : 在 n 个 位 置 中 选 定 ki 个 位 置 给 第 一 类 不 可 区 分 的 对 
象 占有 , 剩 下 的 n 一 个 位 置 中 再 选 定 ko 个 位 置 给 第 二 类 不 可 区 分 的 对 象 占 有 ， 
依次 类 推 , 对 于 每 一 类 不 可 区 分 的 对 象 都 分 派 了 位 置 . 这 样 每 一 种 位 置 的 分 配 位 置 
的 方法 对 应 于 一 种 可 区 分 的 对 象 序 列 . 这 样 的 分 配 位 置 的 方法 数 等 于 将 n 个 对 象 
分 成 7 个 组 的 方法 数 , 每 一 个 组 的 大 小 分 别 是 后 … , Ar， 而 这 种 分 组 方法 的 数目 
就 是 多 项 式 系 数 . 


第 2 章 离散 随机 变量 
2.1 基本 概念 


在 许多 概率 模型 中 试验 结果 是 数值 化 的 , 例如 许多 仪器 的 仪表 板 的 读数 以 及 股 
价 等 . 也 有 其 他 一 些 例 子 中 的 试验 结果 不 是 数值 化 的 , 但 是 这 些 试验 结果 与 某 些 数 
值 相 联系 . 例如 , 从 某 个 群体 中 选择 学 生 , 我 们 希望 了 解 每 位 学 生 的 平均 学 分 . 当 我 
们 讨论 这 些 数字 的 时 候 , 通常 给 这 些 数字 确定 概率 . 我 们 可 以 通过 随机 变量 实现 这 
个 任务 , 这 正 是 本 章 重点 介绍 的 对 象 . 

现在 设 在 某 个 试验 中 , 所 有 可 能 的 试验 结果 构成 一 个 样本 空间 . 对 于 样本 空间 
中 的 每 一 个 可 能 的 试验 结果 , 关联 着 一 个 特定 的 数 . 这 种 试验 结果 与 数 的 对 应 关系 
形成 一 个 随机 变量 ( 见 图 2.1). 我 们 将 试验 结果 所 对 应 的 数 称 为 随机 变量 的 取 值 . 
从 数学 上 讲 , 随机 变量 是 试验 结果 的 一 个 实 值 函 数 . 


样本 空间 
实数 轴 


随机 变量 : 
X= 两 次 转动 的 最 大 数 


样本 空间 : 
两 次 转动 的 所 有 可 能 结果 


(b) 


图 2.1 (a) 随机 变量 的 图 像 化 表示 . 这 是 一 个 试验 结果 的 函数 , 对 每 一 个 试验 结果 确定 一 个 
数值 ; (b) 随机 变量 的 一 个 例子 . 将 一 个 具有 4 条 边 的 贷 子 连续 转动 两 次 , 其 相应 的 
随机 变量 是 两 次 转动 所 得 到 的 最 大 数 . 若 试 验 结果 是 (4, 2), 则 随机 变量 的 值 为 4 
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现在 举 几 个 随机 变量 的 例子 . 


(a) 连续 抛 撕 一 枚 硬币 共 5 次 , 在 这 个 试验 中 正面 出 现 的 次 数 是 一 个 随机 变量 . 
然而 作为 试验 结果 的 长 度 为 5 的 正面 和 反面 的 序列 却 不 能 作为 随机 变量 , 因为 它 
对 于 一 个 试验 结果 没有 给 出 一 个 明显 的 数值 . 

(b) 在 两 次 抛掷 一 个 明 子 的 试验 中 , 下 面 的 例子 是 随机 变量 : 

Gi) 两 次 抛掷 仍 子 所 得 到 的 点 数 之 和 ; 
(ii) 两 次 抛 搓 一 个 蜗 子 所 得 到 6 点 的 次 数 ; 
(省) 第 二 次 抛掷 所 得 到 的 点 数 的 5 次 方 . 


(c) 在 传输 信号 的 试验 中 , 传输 信号 所 需 的 时 间 、 接 收 到 的 信号 中 发 生 错误 的 
次 数 、 传 输 信和 号 过 程 中 的 时 间 延 迟 等 都 是 随机 变量 . 


我 们 列 出 者 干 关于 随机 变量 的 基本 概念 , 这 些 概念 将 在 本 章 中 详细 介绍 . 


与 随机 变量 相关 的 主要 概念 
在 一 个 试验 的 概率 模型 之 下 : 
。 随机 变量 是 试验 结果 的 实 值 函数 . 
。 随机 变量 的 函数 定义 了 另 一 个 随机 变量 . 
。 对 于 一 个 随机 变量 , 我 们 可 以 定义 一 些 平均 量 , 例如 均值 和 方差. 
。 可 以 在 某 事 件 或 某 随机 变量 的 条 件 之 下 定义 一 个 随机 变量 . 
。 存在 一 个 随机 变量 与 某 事件 或 某 随机 变量 相互 独立 的 概念 . 


若 一 个 随机 变量 的 值 域 (随机 变量 的 取 值 范围 ) 为 一 个 有 限 集合 或 最 多 为 可 数 
无 限 集合 , 则 称 这 个 随机 变量 为 离散 的 . 例如 上 面 (a) 和 (b) 中 提 到 的 随机 变量 , 由 
于 它 只 能 取 有 限 多 个 值 , 所 以 是 离散 的 随机 变量 . 

车 一 个 随机 变量 可 以 取 到 不 可 数 无 限 多 个 数 , 则 这 个 随机 变量 就 不 是 一 个 离散 
的 随机 变量 . 例如 从 区 间 [-1 1 上 随机 地 取 一 个 点 a, 随机 变量 a? 就 不 是 离散 的 
随机 变量 . 另 一 方面 随机 变量 


|， 若 ac > 0， 
sgn(a) = 4 0, 车 a=0， 
-1， 若 a< 0. 


是 一 个 离散 的 随机 变量 . 
本 章 只 讨论 离散 随机 变量 .尽管 有 时 候 省 略 了 形容 词 “离散”, 但 我 们 讨论 的 
还 是 离散 随机 变量 的 性 质 . 


与 离散 随机 变量 相关 的 概念 

在 一 个 试验 的 概率 模型 之 下 : 

。 离散 随机 变量 是 试验 结果 的 一 个 实 值 函数 , 但 是 它 的 取 值 范围 只 能 是 有 限 
多 个 值 或 可 数 无 限 多 个 值 . 

。 一 个 离散 随机 变量 有 一 个 分 布 列 , 它 对 于 随机 变量 的 每 一 个 取 值 , 给 出 一 
个 概率 . 

。 离散 随机 变量 的 函数 也 是 一 个 离散 随机 变量 , 它 的 分 布 列 可 以 从 原 随 机 变 
量 的 分 布 列 得 到 . 


下 面 的 几 节 将 讨论 上 面 所 提 到 的 概念 及 其 相关 的 方法 理论 . 此 外 我 们 还 将 提供 
重要 的 离散 随机 变量 的 例子 . 第 3 章 将 讨论 一 般 的 随机 变量 (不 一 定 为 离散 随机 变 


星 ) 


尽管 本 章 中 看 起 来 引入 了 很 多 新 的 概念 , 实际 上 并 非 如 此 . 我 们 只 是 将 第 一 章 
中 的 概念 (概率 、 条 件 和 独立 性 等 ) 简单 地 应 用 到 了 随机 变量 上 去 , 仅仅 引进 了 一 
些 新 的 记号 . 本 章 中 真正 新 的 概念 是 均值 与 方差. 


2.2 分 布 列 


离散 随机 变量 的 取 值 概率 是 随机 变量 的 最 重要 的 特征 ， 我 们 用 分 布 列 表示 这 
种 特征 , 并 且 用 px 表示 随机 变量 X 的 分 布 列 . 设 > 是 随机 变量 X 的 取 值 , 则 蕊 
取 值 为 z 的 概率 定义 为 事件 {X = z} 的 概率 , 即 所 有 与 x 对 应 的 试验 结果 所 组 成 
的 事件 的 概率 , 用 px (zx) 表示 之 , 即 
px(7) = P({X = 2}). 
例如 , 在 将 一 枚 均匀 的 硬币 独立 地 抛掷 两 次 的 试验 中 , 令 XX 为 正面 向 上 的 次 数 . 则 
X 的 分 布 列 由 下 式 给 出 
1/4， 若 z=0 或 z=2， 
px(z) =41/2， 若 z= 1， 
0， 其 他 . 
今后 在 不 引起 混淆 的 情况 下 ， 我 们 将 省 去 表示 事件 或 集合 的 花 括 号 . 例如 用 
P(X = z) 表示 事件 {X = z} 的 概率 , 尽管 记号 P({X = z}) 比较 确切 一 些 ， 同 时 
我 们 也 会 遵守 下 面 的 传统 : ”我 们 用 大 写字 母 表示 随机 变量 ,用 小 写 字母 表示 实数 ， 
例如 随机 变量 的 取 值 等 . 
对 于 分 布 列 , 我 们 有 
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其 中 求 和 是 对 随机 变量 X 的 一 切 可 能 的 取 值 而 求 的 , 上 式 之 所 以 成 立 是 由 于 概率 
的 可 加 性 和 归 一 性 公理 . 对 于 不 同 的 z, 事件 {X = z} 是 互 不 相 容 的 , 并 且 对 所 有 
的 z, 事件 系列 {X = zx} 形成 了 样本 空间 的 一 个 分 割 . 利用 类 似 的 原理 可 以 证 明 ， 
对 于 任意 一 个 X 的 可 能 值 的 集合 5, 下 式 成 立 : 


P(XeS)= > px(z). 


XES 


例如 , 在 将 一 枚 均匀 的 硬币 独立 地 抛掷 两 次 的 试验 中 , 至 少 一 次 正面 向 上 的 概率 为 
2 

P(X >0)= >》 px(z) = 了 二 了 7 
Wl 


分 布 列 的 计算 , 在 概念 上 是 很 简单 的 , 图 2.2 给 出 了 很 直观 的 解释 . 


样本 空间 : 
两 次 转动 散 子 的 所 有 可 能 结果 (b) 

图 2.2 (a) 随机 变量 X 的 分 布 列 计算 方法 的 图 像 化 表示 ， 对 每 一 个 X 的 可 能 值 x, 找 出 
使 X = z 的 所 有 试验 结果 , 将 它们 的 概率 相 加 得 到 px(z)，(b) 设 所 涉及 的 试验 是 
转动 一 个 具有 4 边 的 均匀 山 子 , 独立 地 转动 两 次 . 所 涉及 的 随机 变量 为 X = 两 次 转 
动 所 得 到 的 最 大 点 数 . X 的 可 能 值 为 1,2, 3, 4， 对 于 给 定 的 x 的 值 , 为 计算 px(z) 
的 值 , 将 X 取 值 为 x 的 所 有 试验 结果 的 概率 相 加 , 得 到 px(z) 的 值 . 例如 , 有 三 个 
试验 结果 ((1, 2), (2, 2), (2, 1)) 的 X 的 值 为 2, 而 每 一 个 试验 结果 的 概率 为 1/16, 故 
px(2) = 3/16 


随机 变量 X 的 分 布 列 的 计算 
对 每 一 个 随机 变量 X 的 值 x: 


(1) 找 出 与 事件 {X = z} 相对 应 的 所 有 试验 结果 . 
(2) 将 相应 的 试验 结果 的 概率 相 加 得 到 px (7x). 


2.2.1 ” 伯 努 利 随 机 变量 


考虑 抛 抑 一 枚 硬币 , 设 正面 向 上 的 概率 为 p, 反面 向 上 的 概率 为 1 一 p. 伯 努 利 
随机 变量 在 试验 结果 为 正面 向 上 时 取信 为 1, 在 试验 结果 为 反面 向 上 时 取 值 为 0, 即 


1， 若 正面 向 上 ， 
0， 车 反面 向 上 . 


它 的 分 布 列 为 


D， 车 天 = 1， 
有 一 
2 人 人 若 大 = 0， 


由 于 伯 努 利 随 机 变量 非常 简洁 , 因此 它 也 是 非常 重要 的 随机 变量 . 在 实际 中 它 
用 于 刻画 具有 两 个 试验 结果 的 概率 模型 . 例如 : 

(a) 在 给 定 的 时 刻 , 一 架 电话 机 可 处 于 待机 状态 或 使 用 状态 ; 

(b) 一 个 人 可 以 处 于 健康 状态 或 患 有 某 种 疾病 状态 ; 

(c) 作为 一 个 人 的 政治 态度 , 他 可 以 赞成 或 反对 某 个 候选 人 . 
进一步 , 我 们 可 以 将 多 个 伯 努 利 随机 变量 综合 成 更 加 复杂 的 随机 变量 . 下 面 我 们 要 
讨论 的 二 项 随机 变量 就 是 其 中 之 一 . 
2.2.2 ”二 项 随机 变量 

将 一 枚 硬币 抛掷 ”次 , 每 次 抛 抑 , 正面 出 现 的 概率 为 p, 反面 出 现 的 概率 为 1-p， 
而 且 各 次 抛 抑 是 相互 独立 的 . 令 X 为 ”次 抛 抑 得 到 正面 的 次 数 . 我 们 称 筷 为 二 
项 随机 变量 , 其 参数 为 n 和 p. X 的 分 布 列 就 是 在 1.5 节 中 讨论 的 二 项 概率 : 

px(k) =P(X =A) = (ra ph, 0 


(按照 传统 , 我 们 用 大 代替 z, 表示 整数 值 随机 变量 X 的 取 值 . ) 对 于 二 项 随机 变量 ， 
利用 归 一 化 公理 可 以 得 到 


> (rl —p)"™*=1. 
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在 图 2.3 中 , 用 图 像 表示 某 些 特殊 情况 的 二 项 分 布 列 . 


le px( 同 
二 项 分 布 列 , n=9, p=1/2 


二 项 分 布 列 ， 
n 很 大 , bp 很 小 


n k 
图 2.3 二 项 随机 变量 的 分 布 列 . 当 p = 1/2 时 , 分 布 列 是 相对 于 nf/2 对 称 的 . 当 p < 1/2 时 ， 
相应 的 分 布 偏向 0, 当 p > 1/2 时 , 相应 的 分 布 偏向 m” 


2.2.3 ”几何 随机 变量 


在 连续 抛 抠 硬 币 的 试验 中 , 每 次 抛掷 , 正面 出 现 的 概率 为 p, 反面 出 现 的 概率 为 
1 一 p, 而 且 各 次 抛掷 是 相互 独立 的 . 令 X 为 连续 地 抛掷 一 枚 硬币 , 直到 第 一 次 出 现 
正面 所 需要 抛 指 的 次 数 . X 就 称 为 几何 随机 变量 . 前 《一 1 次 抛掷 的 结果 为 反面 向 
上 , 第 大 次 抛 丘 的 结果 为 正面 向 上 的 概率 为 (1 一 p)*-1p. 因此 X 的 分 布 列 为 
px(k) = (1— pip, k=1,2,.... 


关于 几何 随机 变量 的 分 布 列 的 图 像 可 见 图 2.4. 从 
Dpx(k) = > (1 — pp= ?D0 =p7 一 一 一 1, 
i=l E=1 (1 ») 


可 知 X 是 一 个 取 正 整数 值 的 随机 变量 (在 连续 抛掷 硬币 的 试验 中 , 永远 出 现 反 面 
向 上 的 概率 为 0). 


px() 


di, 


0 1 有 3 


图 2.4 几何 随机 变量 的 分 布 列 . px (k) = (1 一 p)*-1p， 有 = 1,2,…, 是 一 个 几何 级 数 , 递减 
的 因子 为 1 一 p 


此 处 , 利用 抛 撕 硬 币 的 试验 恰巧 是 抓 住 了 事物 的 本 质 . 更 一 般 地 , 连续 抛掷 硬 
币 的 试验 序列 中 出 现 正面 可 以 解释 为 独立 试验 序列 中 的 一 次 试验 “成 功 ", 这 样 几 
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何 随机 变量 可 以 解释 为 独立 试验 序列 中 直到 试验 第 1 次 “成 功 ”所 需 的 试验 次 数 . 
而 试验 “成 功 ” 的 意义 是 随 着 所 讨论 的 问题 的 实际 背景 而 变化 的 . 例如 可 以 是 在 某 
次 测验 中 通过 了 考试 , 在 某 次 搜索 中 发 现 目标 , 或 成 功 地 进入 计算 机 系统 等 . 


2.2.4 ” 泊 松 随机 变量 
设 随机 变量 XX 的 分 布 列 由 下 式 给 出 


Kk 
px(h) =e k=0,1,2,..., 


其 中 和 是 分 布 列 中 取 正 值 的 参数 , 则 称 X 是 泊 松 随机 变量 ( 见 图 2.5). 由 于 


> =e (1+a+ 生 + ) 一 exex 一 1， 
k=0 
这 个 数列 符合 分 布 列 的 定义 .? 
Px( 局 Zx( 月 
泊 松 分 布 列 , 和 =0.5 泊 松 分 布 列 . 和 =3 


图 2.5 对 应 于 不 同 的 和 的 泊 松 随机 变量 的 分 布 列 ， 当 A < 1 时 , 分 布 列 是 单调 递减 的 ， 当 
入 > 1 时 , 分 布 列 随 着 & 的 递增 , 先 递增 后 递减 (可 参考 本 章 末 尾 的 习题 ) 


为 了 给 出 泊 松 随机 变量 的 直观 印象 , 考虑 当 二 项 随机 变量 的 参数 n 很 大 , p 很 
小 的 情况 . 例如 , 令 X 为 字数 为 n 的 一 本 书 中 含有 打印 错误 的 字数 . 这 样 , X 是 
二 项 随机 变量 . 但 是 , 由 于 一 个 字 被 打印 错误 的 概率 p 非常 小 , X 也 可 以 用 泊 松 分 
布 列 刻画 ( 打 错 一 个 字 相 当 于 抛 措 一 枚 硬币 出 现 正面 向 上 , 但 正面 向 上 的 概率 p 很 
小 ). 类 似 的 例子 很 多 , 例如 在 一 个 城市 中 一 天 中 发 生 车 祸 的 事故 数 .2 

用 泊 松 随机 变量 刻画 这 样 的 现象 十 分 恰当 . 更 确切 地 说 , 参数 为 的 泊 松 随机 
变量 的 分 布 列 是 二 项 随机 变量 分 布 列 的 很 好 的 逼近 : 


A nl! 
pp 0,1,... 
HY Rn? 人 一 ， k=0,1,..,n, 


加 若 这 个 总 和 不 等 于 1, 就 与 概率 的 归 一 化 定律 相 冲突 . 译 者 注 
@ 普遍 认为 , 第 一 个 关于 二 项 随机 变量 和 泊 松 随机 变量 之 间 联 系 的 实证 例子 , 是 在 19 世纪 后 半 叶 用 
泊 松 分 布 列 去 允 近 波兰 骑兵 被 马 跑 伤 的 人 数 . 
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其 中 入 = np, n 很 大 , p 很 小 . 在 这 种 情况 下 , 泊 松 分 布 列 使 得 模型 简单 , 计算 方便 . 
例如 , ”= 100, p = 0.01, 用 二 项 随机 变量 计算 成 功 次 数 & = 5 的 概率 为 
2 . 0.015(1 - 0.01) = 0.002 90. 
利用 泊 松 随机 变量 计算 这 个 概率 得 到 近似 值 
1 = 0.003 06, 


其 中 入 = mp = 100.0.01 = 1 
在 本 章 最 后 的 习题 中 , 我 们 将 给 出 泊 松 逼近 的 严格 证 明 . 第 6 章 将 作 进 一 步 解 
释 和 推广 , 并 且 将 结果 用 到 泊 松 过 程 中 去 . 


2.3 ”随机 变量 的 函数 


设 X 是 一 个 随机 变量 . 对 X 施行 不 同 的 变换 , 可 以 得 到 其 他 的 随机 变量 . 作 
为 例子 , 用 X 表示 今天 的 气温 (单位 为 摄氏 度 ,"C). 作 变 换 Y = 1.8X + 32, 得 到 
华氏 温度 的 读数 (°F). 在 这 个 例子 中 YY 是 六 的 线性 函数 
Y=g(X)=aX+b, 
其 中 a 和 4。 是 数值 . 我 们 也 可 以 考虑 X 的 非 线性 函数 
Y = g(X). 
例如 可 以 考虑 对 数 度量 , 此 时 可 用 变换 g(X) = log(X). 
设 Y = g(X) 是 随机 变量 X 的 函数 , 由 于 对 每 一 个 试验 结果 , 也 对 应 一 个 (Y 
的 ) 数值 , 故 Y 本 身 也 是 一 个 随机 变量 . 如 果 X 是 离散 的 随机 变量 , 其 对 应 的 分 布 
列 为 px, 则 Y 也 是 离散 随机 变量 , 其 分 布 列 可 通过 X 的 分 布 列 进行 计算 . 实际 上 ， 
对 固定 的 y 值 , py (y) 的 值 可 以 通过 下 式 计算 
pr(W)= 2 px(z). 
{zlg(z)=Y} 
例 2.1 可 以 利用 上 述 公 式 计算 Y = |X| 的 分 布 列 , 其 中 XX 的 分 布 列 由 下 式 给 出 ， 


1/9， 车 x 是 [-4,4| 中 的 整数 ， 

DX(Z) = 
0， 其 他 . 

由 于 Y 的 值 域 为 y = 0,1,2,3,4, 对 于 值 域 中 的 任意 y, 只 需 将 满足 |z| = y 的 所 有 

px(z) 的 值 相 加 , 就 可 以 得 到 py(y) 的 值 . 当 y = 0 的 时 候 , 只 有 x = 0 能 够 满足 条 

件 y= |0| = 0. 这 样 


pr(0) = px(0) = 5 
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对 于 y = 1,2,3,4, 有 两 个 z 值 满足 条 件 y = |z|. 例如 ( 见 图 2.6 的 图 示 说 明 ) 
pr 四 =px(-D+Px(D=2 
这 样 , Y 的 分 布 列 为 
2/9， 若 y = 1,2,3,4, 
pr(y) = 41/9， 若 y=0， 
0， ”其 他 . 


px(T) pr(Y) 


图 2.6 例 2.1 中 久 和 Y= |X| 的 分 布 列 
现在 看 另 一 个 随机 变量 Z = X?. 为 了 求 得 2 的 分 布 列 , 我 们 既 可 以 将 它 看 
成 X 的 平方 ， 也 可 以 看 成 二 |X| 的 平方 . 利用 公式 pz(z) 一 2 rtzlzz=z] DPKX(Z) 或 
DZz(z) = 2 {yly2=z} Dr(y)， 得 到 
2/9, 若 z= 1, 4, 9, 16, 
pz(z) 二 $1/9， 若 z=0， 口 
0， ”其 他 . 
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区 的 分 布 列 给 出 了 XX 所 有 可 能 取 值 的 概率 . 通常 , 我 们 希望 将 这 些 信息 综合 
成 一 个 能 够 代表 这 个 随机 变量 的 数 . X 的 期 望 可 以 实现 这 个 目的 . X 的 期 望 就 是 
X 的 所 有 取 值 相对 于 它 的 概率 的 加 权 平 均 . 

为 了 更 好 地 理解 期 望 的 意义 , 假定 你 有 机 会 转动 一 个 幸运 轮 许多 次 . 每 次 转动 ， 


辛 运 轮 会 出 现 一 个 数字 , 不 妨 设 为 mi, mz,… ,mn 中 的 一 个 . 这 些 数字 出 现 的 概率 ”， 


分 别 为 p1,p2,… ,pn， 而 出 现 的 数字 就 是 你 所 得 到 的 钱 数 (给 你 的 奖励 ) “每 次 ” 
转动 , 你 所 “期 望 ” 得 到 的 钱 数 是 多 少 ? 此 处 “每 次 ”和 “期 望 ” 都 是 一 些 不 确定 的 
词汇 . 但 是 下 面 的 解释 可 以 把 这 些 词汇 的 含义 确定 下 来 . 
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假定 你 一 共 转 动 幸运 轮 & 次 , 而 其 中 有 k; 次 转动 的 结果 为 mi. 你 所 得 到 的 总 
钱 数 为 miki + mzkz 十 … 十 mmkn. 每 次 转动 所 得 到 的 钱 数 为 


miki + m2kz tt mn ken 
k 


现在 假定 是 很 大 的 一 个 数 , 我 们 有 理由 假定 概率 与 频率 相互 接近 . 即 


EP 2 二 1) 人 也. 


这 样 你 每 次 转动 幸运 轮 所 期 望 得 到 的 钱 数 是 


mik1 十 m2k2 ++ mnk 
= mpi + mape + Mnpn. 


M= 


M 


由 这 个 例子 的 启发 , 我 们 引进 下 面 的 定义 .” 


期 望 
设 随机 变量 XX 的 分 布 列 为 px. 的 期 望 值 (也 称 期 望 或 均值 ) 由 下 式 给 出 : 


EIX] = >》 zpx(z)， 


例 2.2 ”考虑 两 次 抛掷 一 枚 硬币 的 试验 , 而 硬币 的 两 面 是 不 均匀 的 , 正面 向 上 的 概 
率 为 3/4. 令 X 是 得 到 的 正面 数 , 这 是 一 个 二 项 随机 变量 , n = 2,p = 3/4. 它 的 分 
布 列 为 


(1/4)?, 若 大 = 0， 
px(k) = $2.(1/4):(3/4)， 车 k= 1， 
(3/4)2, 若 大 = 2， 


故 其 均值 为 


1\? 1 3 /3\* 24 3 
PR 人 动人 = 10-3 


@ 当 随 机 变量 的 取 值 范围 为 可 数 无 限 集合 的 时 候 ， 可 能 会 遇 到 这 样 的 情况 : 和 号 立 。zpx(z) 没有 
确切 定义 . 通常 , 当 > 。 |z|px(z) < oo 的 时 候 , X 的 期 望 值 有 确切 定义 , 它 的 值 是 一 个 有 限 数 并 
且 等 于 级 数 > 。 zpx (z) 的 部 分 和 的 极限 , 而 这 个 极限 值 与 求 和 号 内 各 项 的 次 序 无 关 . 

作为 一 个 反例 , 考虑 随机 变量 X 的 取 值 范围 为 21, 22,.…., 相应 的 概率 分 别 为 2-!,2~?,.…， 
此 时 级 数 > 。zpx(z) = oo, 并 称 X 的 期 望 无 确切 定义 . 另 一 个 反例 是 : X 取 2* 和 一 2* 的 概 
率 为 2 ,大 = 2,3,.…. 这 个 例子 中 X 的 期 望 也 无 确切 定义 , 其 原因 是 并 。|zlpx(z) = oo. 尽 
管 这 个 随机 变量 是 相对 于 0 对 称 的 , 其 期 望 值 似乎 可 以 定义 为 0. 

本 书 所 涉及 的 随机 变量 的 期 望 总 是 有 定义 的 , 因此 在 论证 中 默认 随机 变量 的 期 望 是 有 定义 的 . 
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通常 将 X 的 均值 解释 为 X 的 代表 值 , 它 位 于 X 的 值 域 中间 的 某 一 点 . 更 确 
切 地 , 可 以 将 分 布 的 均值 看 成 分 布 列 的 “重心 ”( 见 图 2.7 的 解释 ). 特别 , 当 随 机 变 
量 的 分 布 列 具有 对 称 中 心 的 时 候 , 这 个 对 称 中 心 必定 为 这 个 对 称 随机 变量 的 均值 . 


1 


重心 c= 均值 =E[X] 
图 2.7 均值 作为 重心 的 解释 ， 设 在 一 根 杆 上 在 x 处 放 上 质量 为 px(z) 的 物质 , px(z) > 0. 
所 谓 重心 是 指 杆 上 的 平衡 位 置 c, 使 得 e 的 右边 的 力矩 等 于 c 的 左边 的 力矩 . 即 满足 
D(z — opx(z)=0 


I 


的 c. 因此 c= ,xpx(x), 即 E[X] 等 于 X 的 质量 分 布 的 重心 


2.4.1 ”方差 、 矩 和 随机 变量 的 函数 的 期 望 规 则 


期 望 是 随机 变量 及 其 分 布 列 的 重要 特征 . 此 外 , 还 有 其 他 重要 的 特征 量 . 例如 
随机 变量 X 的 二 阶 逢 定义 为 随机 变量 X2 的 均值 . 进一步 n 阶 短 E[X"] 定义 为 
X" 的 期 望 值 . 这 样 均值 本 身 就 刚好 是 一 阶 算 . 

除了 均值 , 随机 变量 X 的 最 重要 的 特征 量 是 方差 , 记 作 var(X). 它 由 下 式 定义 


var(X)=E[(X— EX))]. 


由 于 (XX 一 EIX])? 只 能 取 非 负 值 , 故 方差 只 能 取 非 负 值 . 方差 提供 了 X 在 期 望 周 围 
分 散 程度 的 一 个 测度 . 分 散 程度 的 另 一 个 测度 是 标准 差 , 它 由 下 式 定义 


ox = Vvar(X). 


标准 差 具 有 实用 性 , 因为 它 的 量 纲 与 X 的 相同 . 例如 X 是 以 米 为 单位 的 长 度 , 方 
差 的 单位 为 平方 米 , 而 标准 差 的 单位 为 米 . 

计算 方差 的 一 种 方法 是 先行 计算 随机 变量 (XX 一 EE[X])? 的 分 布 列 , 然后 利用 期 
望 值 的 定义 计算 久 的 方差 . (X -EIX])? 是 随机 变量 X 的 函数 , 可 利用 前 面 提供 
的 方法 计算 (X - E[X])? 的 分 布 列 . 
例 2.3 ”考虑 例 2.1 中 的 随机 变量 X, 它 的 分 布 列 为 


jx) = 人 /8， 若 = 是 王 4 和 中 的 台数 
其 他 . 
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此 时 , 均值 EIX] = 0. 这 可 以 从 分 布 的 对 称 性 看 出 , 也 可 以 从 期 望 的 定义 直接 计算 
得 到 
1 .4 
EC] 一 >，zpx(z) =5 47 = 0. 


了 一 一 公 


令 GF=( 和 -EX)2 = X?. 在 例 2.1 中 , 已 经 得 到 


2/9， 若 z = 1,4.9,16 
pz(z) 二 1/9, 车 z= 0， 
0， 其 他 ， 


这 样 , X 的 方差 为 


1 2 2 2 2 60 
一 一 二 人 0. ，。 一 。 一 。 一 16 一 一 一， 
var(X) = E[2Z] > zpz(z) =0 5 二 1 8 十 4 5 十 9 g 十 65 9 


计算 var(X) 时 并 不 需要 先行 计算 (X - BEIX])2 的 分 布 列 , 而 男 有 更 加 便利 的 
方法 . 这 种 方法 根据 下 面 的 规则 得 到 . 


随机 变量 的 函数 的 期 望 规则 
设 随 机 变量 区 的 分 布 列 为 px, 又 设 g(X) 是 于 的 一 个 函数 , 则 9(X) 的 期 
望 由 下 列 公式 得 到 


Elg(X)] = 5 g(z)px (2). 


为 验证 此 公式 , 令 了 = 9(X) 并 利用 2.3 节 导 出 的 公式 


py (y) 二 > DX (2), 
{zlg(z)=y} 


得 到 
Elg(X)] = E[Y] 
= >》 ypr(y) 
= y ) px(z) 


y {zlg(z)=y)} 
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= >， > ， VDX(Z) 


y {zlg(z)=y} 


= 5 gs)px(z) 


y {zlg(z)=vy} 


= 5 gs)px (2). 
将 期 望 规则 应 用 到 X 的 方差, 我 们 得 到 


var(X)=E[(X—EX])] = >》 (z— EIX])px(z). 


I 


相似 地 , 对 于 X 的 nn 阶 甜 , 我 们 有 
E[X"] = Yr"px(z). 


因此 在 计算 X 的 ” 阶 矩 的 时 候 , 我 们 不 必 先 求 X” 的 分 布 列 . 
例 2.3( 续 ) 设 随 机 变量 X 的 分 布 列 由 下 式 给 出 ， 


aa 1/9， 若 zx 是 [-4,4 中 的 整数 ， 
X(T) 二 
0， ”其 他 ， 


利用 期 望 规 则 得 到 


var(X)=E[(X— EIX])’] 
= > (x — E[X])?px (7) 


= S6191411+0+1+4+9+10) 
60 
= 了 
这 个 结果 与 早先 得 到 的 结果 是 一 样 的 . 
先前 已 经 提 到 , 方差 是 非 负 的 . 那么 是 否 可 为 0? 由 于 在 方差 的 公式 (x 一 
E[X])?px (zx) 中 , 每 一 项 都 是 非 负 的 . 为 了 使 得 这 个 和 号 为 0, 其 充 要 条 件 是 对 每 一 
个 xz, (z 一 EP[X])?px(z) = 0， 这 个 条 件 说 明 对 每 一 个 使 得 px(z) > 0 的 z, 均 有 
zx 二 E[X]. 这 说 明 X 其 实 不 是 随机 的 , 随机 变量 X 等 于 E[X] 的 概率 为 1. 
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方差 
随机 变量 XX 的 方差 由 下 列 公式 所 定义 : 


var(X) = E[(X — EX])]. 


并 且 可 以 用 下 式 进行 计算 : 
Vvar(X)= 2 一 ])2px(z). 
它 是 非 负 的 , 其 平方 根 称 为 标准 差 , 记 为 ox. | 


2.4.2 ”均值 和 方差 的 性 质 


我 们 将 用 随机 变量 的 函数 的 期 望 规则 导出 一 些 均值 和 方差 的 重要 性 质 ， 首 先 
考虑 随机 变量 X 的 函数 
Y=aX+b, 


其 中 a 和 4 是 已 知 常数 . 关于 线性 函数 Y 的 均值 和 方差 , 我 们 有 
E[lY] = (ax + b)px (7) ) = 0 zpx( 人 + px ) = aE[X]+b. 
进一步 地 
var(Y) = 》， (az +b— ElaX +0))? px(z) 
= >》, (az + 6 — aE[X] — 0)? px(z) 


=02 5 ~ ELX])’px(z) 


= a2var(X). 
[ 
随机 变量 的 线性 函数 的 均值 和 方差 
设 六 为 随机 变量 , 令 
Y=aXi+b, 


其 中 a 和 5 为 给 定 的 常数 , 则 


E[Y] = aE[X]+b, var(Y) = a?2var(X). 


此 外 , 我 们 还 将 证 明 如 下 一 个 方差 的 重要 公式 . 


用 和 矩 表达 的 方差 公式 


var(X) 一 也 [X2] 一 (E[X])?. 
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这 个 用 矩 表达 的 方差 公式 的 证 明 可 以 通过 下 列 等 式 完成 : 
var(X) = 5 (2 — EIX])? px(z) 
= 3 (2? ~ 2E[X] + (E[X])?) px (2) 
= De (0) ~280] Dzpx(s) + @P Dpx ©) 


= E[X?] — 2(E[X])? + (E[X])? 
= ELX?] — (ELX])’. 


最 后 我 们 用 例子 说 明 期 望 运算 的 一 个 缺陷 : 除非 g(X) 是 一 个 线性 函数 , 一 般 
情况 下 Elg(X)] 不 等 于 g(E[X]). 
例 2.4 (平均 速度 和 平均 时 间 ) ”如果 遇 到 好 天 气 (这 种 天 气 出 现 的 概率 为 0.6), 爱 
丽 丝 会 步行 2 英里 上 学 , 步行 速度 为 每 小 时 5 英里 (V = 5). 天 气 不 好 的 时 候 , 她 
骑 摩 托 车 上 学 , 时 速 30 英里 (V = 30). 她 上 学 所 用 的 平均 时 间 是 多 少 ? 

正确 的 方法 是 先 计算 时 间 了 的 分 布 列 ， 


() = 0.6，t 二 2/5 小 时 ， 
人 0.4，t+ 二 2/30 小 时 ， 
然后 计算 均值 ， 。 
E[T] = 0.6 5 二 0.4. 30= 15 人 小时: 


然而 , 下 面 的 计算 是 错误 的 : 先 计算 平均 速度 


E[V] = 0.6.5 十 0.4.30 = 15 英 里 /小 时 ， 


然后 声称 平均 时 间 为 ， ， 
B[V] 二 5 英里 /小 时 . 
总 之 , 在 这 个 例子 中 
T=2 Bn -Bly| za 口 
TY V 也 [让 


2.4.3 ” 某 些 常用 的 随机 变量 的 均值 和 方差 

我 们 将 推导 出 一 些 重要 的 随机 变量 的 均值 和 方差 , 在 本 课程 中 经 常会 遇 到 这 些 
公式 . 
例 2.5 ( 伯 努 利 随 机 变量 的 均值 和 方差 ) ”考虑 抛 搓 一 枚 硬币 , 设 其 正面 出 现 的 概率 
为 p, 反面 出 现 的 概率 为 1 - p. 伯 努 利 随机 变量 的 分 布 列 为 
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»， 车 k=1， 
k) = 
px (k) 人 若 大 0. 


下 面 给 出 了 它 的 均值 、 二 阶 矩 和 方差 的 计算 公式 
EX]=1:p+T0.( 一 2 一 P， 
EX = 了 1:p 二 0 (1 一 信 =P 
var(X) = 了 LIX3 — (E[X])? =p—p? = p(1—p). D 
例 2.6 (离散 均匀 随机 变量 ) ” 设 涉及 的 试验 是 抛 撕 一 个 均匀 的 具有 6 个 面 的 骸 子 . 
其 平均 点 数 和 方差 是 多 少 ? 我 们 将 试验 结果 看 成 一 个 随机 变量 , 它 的 分 布 列 为 
1/6， 若 = 1,2,3,4,5,6, 
k= 
px (k) : 其 他 
由 于 分 布 列 相 对 于 3.5 是 对 称 的 , 我 们 得 到 EIX] = 3.5. 关于 方差 , 我 们 有 
var(X) = EEX3] ~ (ELX])? 
= ey +22+32 十 42 二 52 十 62) (3.5)2， 
这 样 , 可 得 到 var(X) = 35/12. 
上 面 的 随机 变量 是 高 散 均 匀 随 机 变量 的 特殊 情况 ， 按 定义 离散 均匀 随机 变量 


的 取 值 范围 是 由 相 邻 的 整数 所 组 成 的 有 限 集 , 而 取 每 个 整数 的 概率 都 是 相等 的 . 这 
样 它 的 分 布 列 为 


1 

一 一 一， 车 =a+1,.…,b， 

px(k) = b—a+t+l 
0, 其 他 ， 


其 中 a,5 是 两 个 整数 , 作为 随机 变量 的 值 域 的 两 个 端点 , a < 5( 关 于 X 的 分 布 列 的 
图 示 见 图 2.8). 由 于 它 的 分 布 列 相 对 于 (a + 5)/2 是 对 称 的 , 其 均值 为 


E[X] = 2 
为 计算 X 的 方差 , 先 考虑 a = 1 和 5b =n 的 简单 情况 . 利用 归纳 法 可 以 证 明 


E[X2] = 1 9p = s(n+ (2n+1) 
k=1 


(具体 证 明 过 程 留 作 习题 ). 这 样 利 用 一 、 二 阶 矩 , 可 得 到 X 的 方差 
var(X) = E[X™] — (E[X])? 
1 1 
= 82+)2n+1)— an+1) 
n2—1 
1 
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图 2.8 在 a 和 之 闻 均 匀 分 布 的 随机 变量 的 分 布 列 . 它 的 均值 和 方差 为 


BIX] = 3 var(X) = C—O e+2) 


对 于 a 和 6 的 一 般 情况 , 实际 上 在 区 间 [a,5] 上 的 均匀 分 布 与 在 区 间 [15 一 o+j] 
上 的 分 布 之 间 的 差异 , 只 是 一 个 分 布 是 另 一 个 分 布 的 推移 , 因此 两 者 具有 相同 的 方 
差 (此 处 区 闻 [4,48] 是 指 处 于 a 和 之 间 的 整数 的 集合 ). 这 样 , 在 一 般 情况 下 , X 的 
方差 只 需 将 简单 情况 下 公式 中 的 ”替换 成 上 - a 上 +1, 即 


_a1T2 a)(b— 
oO 一 + 1_( 0 a+2) 


例 2.7 ( 泊 松 随机 变量 的 均值 ) 设 X 的 分 布 列 为 泊 松 分 布 列 , 即 


k 
px(k)=e pr) k=0,1,2,...， 


-和 yo ( 令 m = 一 1) 


最 后 一 个 等 式 利用 了 泊 松 分 布 列 的 归 一 化 性 质 . 
相似 的 计算 指出 泊 松 随机 变量 的 方差 为 ( 见 本 章 2.7 节 的 例 2.20). 在 以 后 的 
章节 中 将 用 不 同 的 方法 导出 这 个 事实 . 
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2.4.4 利用 期 望 值 进行 决策 


设想 有 一 个 项 目 , 有 几 种 处 理 方案 . 而 每 种 处 理 方案 都 有 随机 的 回报 , 那么 用 
什么 样 的 准则 去 最 优 地 选择 处 理 方案 呢 ? 期 望 值 是 一 个 合理 且 方 便 的 准则 . 如 果 把 
期 望 回报 看 成 一 个 处 理 方 案 长 期 重复 执行 的 平均 回报 , 那么 选择 具有 最 大 期 望 回报 
的 策略 是 合理 的 . 下 面 是 一 个 例子 . 

例 2.8 (智力 测验 ) ”这 是 一 个 具有 随机 回报 的 实施 方案 最 优选 择 的 典型 例子 . 

在 一 个 智力 游戏 中 一 共有 两 个 问题 需要 回答 , 但 游戏 规则 要 求 你 选择 一 个 问题 
作为 首先 回答 的 问题 . 问题 1 比较 容易 , 你 能 够 正确 回答 的 概率 为 0.8. 回答 正确 就 
能 够 得 到 100 美元 的 奖金 . 问题 2 比较 难 , 你 能 够 正确 回答 的 概率 为 0.5. 回答 正 
确 就 能 够 得 到 200 美元 的 奖金 . 若 你 选 定 一 个 首先 回答 的 问题 却 不 能 正确 地 回答 ， 
你 不 但 不 能 拿 到 奖金 , 而 且 也 不 容许 回答 第 二 个 问题 . 若 你 能 够 正确 地 回答 第 一 个 
问题 , 就 还 有 机 会 回答 第 二 个 问题 . 为 了 使 奖金 总 和 的 期 望 值 最 大 , 你 应 该 选择 哪 
一 个 问题 作为 首先 回答 的 问题 ? 

这 个 问题 并 不 简单 , 高 回报 必 有 高 风险 . 希望 首先 回答 问题 2, 奖金 多 , 但 是 问 
题 比较 难 , 并 且 要 冒 着 不 让 回答 问题 1 的 风险 . 我 们 将 所 得 到 的 奖金 总 额 作为 随机 
变量 XX, 并 且 计 算 两 种 可 能 的 回答 问题 的 次 序 下 的 期 望 值 E[X] ( 见 图 2.9). 


$0 $0 


$ 200 


$ 300 $ 300 
首先 回答 问题 1 首先 回答 问题 2 


2.9 智力 测验 问题 中 的 两 种 实施 方案 的 序 贯 树 形 图 说 明 
(a) 先 回答 问题 1: 此 时 的 分 布 列 为 (参考 图 2.9 的 左边 ) 
px(0)=0.2, px(100) = 0.8.0.5， px(300) = 0.8.0.5， 
由 此 得 到 
E[X] = 0.8.0.5.100 上 0.8.0.5.100 = 160( 美 元 )， 
(b) 先 回 答 问题 2: 此 时 X 的 分 布 列 为 (参考 图 2.9 的 右边 ) 
px (0) = 0.5, px(200) = 0.5.0.2， px (300) = 0.5 . 0.8, 
由 此 得 到 
E[X] = 0.5: 0.2:200 十 0.5.0.8.300 二 140( 美 元 ). 
这 样 看 来 , 首先 回答 比较 容易 的 问题 1 比较 合算 . 


2.5 多 个 随机 变量 的 联合 分 布 列 81 


现在 将 这 个 具体 的 例子 推广 成 一 般 的 问题 . 用 zz 和 ps 分 别 表示 正确 回答 问 
题 1 和 问题 2 的 概率 , 用 w 和 v 分 别 表示 正确 回答 问题 后 所 得 到 的 奖金 . 若 先 回 
答 问题 1, 则 所 得 到 的 奖金 总 额 为 
E[X] = pi1(1 — p2)v1 十 Dilpa(ol + v2) = D1U1 十 D1D202， 
而 先 回 答 问题 2, 所 得 到 的 奖金 总 额 为 
E[X] = pa(1 — p1)v2 + pip2 (v1 + v2) = p2v2 + Di1D2V1. 
这 样 , 最 优 策略 为 先行 回答 问题 1 的 充 要 条 件 是 
P11 + D1D2V2 之 Do2V2 十 D1D2V1， 
或 等 价 的 条 件 
21V1 人 > D2v2 
工 一 D1 ”1— 了 2 
这 样 , 每 一 个 问题 都 有 一 个 指标 pv/(1 一 p), 其 中 p 就 是 正确 回答 问题 的 概率 , v 就 


是 正确 回答 问题 以 后 所 得 到 的 奖金 . pv/(1 -- p) 的 值 大 , 相应 的 问题 就 应 该 优先 回 
答 . 这 个 问题 还 可 以 推广 到 多 于 两 个 问题 的 情况 ( 见 本 章 后 面 的 习题 ). 口 
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在 一 个 试验 中 经 常 涉及 几 个 随机 变量 . 例如 , 在 医疗 诊断 中 , 通常 涉及 几 个 试 
验 指标 , 或 者 在 网 络 中 我 们 常常 对 几 个 网 关 的 负荷 感 兴趣 . 所 谓 多 个 随机 变量 是 指 
在 同一 个 试验 结果 之 下 产生 的 多 个 随机 变量 .它们 所 涉及 的 样本 空间 和 概率 律 是 
相同 的 . 这 些 随机 变量 的 取 值 是 由 试验 结果 确定 的 , 因此 它们 的 取 值 相互 联系 . 现 
在 考察 它们 取 值 的 概率 . 本 节 将 分 布 列 和 期 望 推 广 到 多 个 随机 变量 的 情况 . 以 后 我 
们 还 要 讨论 条 件 和 独立 这 样 的 概念 , 这 些 概 念 是 与 第 1 章 中 讨论 的 概念 平行 的 . 

现在 设 在 同一 个 试验 中 有 两 个 随机 变量 X 和 Y. 它们 的 取 值 概率 可 以 用 它们 
的 联合 分 布 列 刻画 , 并 且 用 pxy 表示 . 设 (z, 妇 是 X 和 Y 的 可 能 取 值 ， (z,y) 的 
概率 质量 定义 为 事件 {X = x,Y = y} 的 概率 : 

px,¥Y (2,Y) = P(X=7,Y =Y). 
今后 我 们 使 用 简洁 的 表达 式 P(X = xz,Y = gy), 尽管 P({X = zx}n{Y = 人 让) 或 
P(X = zx 和 Y = y) 是 更 准确 的 表达 式 . 

利用 联合 分 布 列 可 以 确定 任何 由 随机 变量 X 和 YY 所 刻画 的 事件 的 概率 . 例如 

4 是 某 些 (z,y) 所 形成 的 集合 , 则 


P((X,Y)eA)= ) pryr(r,y). 
(Z,y)EA 


82 第 2 章 离散 随机 变量 


事实 上 , 我 们 还 可 以 利用 X 和 了 了 的 联合 分 布 列 计算 X 或 Y 的 分 布 列 
px(zZ) = > pxy(Z 人 ，py( 信 =》 pxy(z,Yy). 


关于 px(z) 的 公式 可 以 从 下 面 的 等 式 得 到 : 
px(z) 一 P( = 了) 
= P(X=7,Y = 


= 》 Px,y (x,Y), 
y 


上 面 第 二 个 等 式 是 由 于 事件 {X = z} 是 所 有 形 如 {X = z,Y = y} 的 互 不 相 容 的 
事件 之 和 . 关于 py(y) 的 公式 的 验证 是 完全 类 似 的 . 为 区 别 起 见 , 我 们 称 px (zx) 或 
py (y) 为 边缘 分 布 列 . 

可 以 通过 表格 计算 X 或 了 的 边缘 分 布 列 . 将 和 和 了 的 联合 分 布 列 排 成 一 
个 二 维 表 , px(z) 的 值 就 是 二 维 表格 中 与 xz 相应 的 那 一 行 (或 列 ) 的 所 有 值 的 总 和 | 
pY(y) 的 值 的 计算 是 完全 类 似 的 . 下 面 的 例子 和 图 2.10 说 明了 其 具体 的 操作 方法 . 


列表 形式 的 联合 
分 布 列 px y(z, 几 


加 四 四 
7/20 

1/20 | 2/2 

四 四 台中 丁 本 

四 四 四 下 于 

取 吧 加 股本 本 

1 2 3 4 


3/20 
3 


2 


3/20 6/20 8/20 3/20 


过 缘分 而 px(2) 
图 2.10 例 2.9 中 计算 和 和 了 的 边缘 分 布 列 的 表格 法 说 明 . 和 和 了 的 联合 分 布 列 px,y (x, 
的 值 列 于 表格 中 ， 在 表 中 与 (z,y) 相应 的 位 置 上 的 数 为 px,y (zx,y)， 对 于 给 定 的 z， 
只 须 把 与 z 相对 应 的 列 上 的 相应 的 px,y(z,y) 的 值 相 加 就 得 到 px (xz) 的 值 , 例如 
px(2) = 6/20. 相似 地 , 对 于 给 定 的 y, 只 须 把 与 y 相对 应 的 行 上 的 相应 的 px,y (zx,y) 
的 值 相 加 就 得 到 px (y) 的 值 , 例如 py (2) = 7/20 


例 2.9 设 和 和 YY 的 联合 分 布 列 如 图 2.10 所 示 . X 的 边缘 分 布 列 的 值 就 是 表 中 
相应 的 列 和 , 而 Y 的 边缘 分 布 列 的 值 就 是 表 中 相应 的 行 和 . 口 
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2.5.1 多 个 随机 变量 的 函数 

存在 多 个 随机 变量 的 情况 下 , 就 有 可 能 从 这 些 随机 变量 出 发 构造 出 新 的 随机 变 
量 . 特别 地 , 从 二 元 函数 2Z = g(X,Y) 可 以 确定 一 个 新 的 随机 变量 .这 个 新 的 随机 
变量 的 分 布 列 可 以 从 联合 分 布 列 通 过 下 式 计算 


pz(2)= pxr(z,y). 
{(z,y)|g(z,y)=z} 


进一步 地 , 关于 随机 变量 的 函数 的 期 望 规则 可 以 推广 成 下 列 形式 
Elg(X,Y)] = 2 2 VY)Px,Y (2, Y). 


这 个 公式 的 证 明 与 单 变量 函数 的 公式 的 证 明 类 似 . 特别 地 , 当 9 是 形 如 aX bY +c 
的 线性 函数 的 时 候 , 我 们 有 


ElaX+bY +e = aBlX]+06ElY]+e 


其 中 &,b,c 均 为 给 定 的 常数 . 
例 2.9 ( 续 ) ”考虑 随机 变量 X 和 了, 它们 的 联合 分 布 列 由 图 2.10 给 出 . 由 下 面 的 
等 式 给 出 一 个 新 的 随机 变量 

Z=X+2Y. 


2 的 分 布 列 可 以 通过 下 式 计 算 


pz(z) = > pxr(z,y), 
{(z,y)[z+2y=z} 


利用 图 2.10 的 数据 , 得 到 2 的 分 布 列 


1 1 2 2 4 


pz(3) pz(4) pz(5) = 0 pz(6) = 


20 30， 50， 20 
pz(8) = DZ(9) = 区 ， pz(10) = 序 ; pz(11) = 志 ， pz(12) = 志 
的 期 望 值 可 从 2 的 分 布 列 得 到 
E[IZ] = 》_ zpz(z) 
=3: 训 + - 面 +5: 曾 +6: 萝 +7 起 
+8. H+9 +10 + 而 +12: 喜 
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另外 , 也 可 以 利用 公式 


E[2] = E[X] + 2E[Y]. 
利用 图 2.10 的 数据 , 先 求 出 XX 和 YY 的 期 望 


故 


2.5.2 ”多 于 两 个 随机 变量 的 情况 
设 有 三 个 随机 变量 X,Y, 2Z, 其 联合 分 布 列 的 定义 是 类 似 的 , 即 
pxy,2(2,Yy,2) = P(X=7,Y =Yy,2 = 2), 
其 中 (z,y,z) 是 (X,Y,2) 的 所 有 可 能 的 取 值 . 相应 地 可 以 得 到 边缘 分 布 列 , 例如 


PX,Y (X,Yy) = px (x, Y, 2)， 


二 DY pxy,z (2,Y, 2) 
关于 随机 变量 的 函数 的 期 望 规则 为 
E [g(X, 区 2)] 一 >», >》, 》 glz, 2， Z)DXYZ(Z， 2 Zz) 
Z Y Zz 


并 且 , 如 果 9 是 形 如 aX 十 bY 十 c2Z + da 的 线性 函数 , 则 
ElaX+bY +cZ+d = aE[X] +bE[Y] + cEl2] +d. 


进一步 地 , 上 面 的 结果 可 以 推广 到 三 个 以 上 随机 变量 的 情况 . 例如 设 X1, XX2,… ,X， 
为 n 个 随机 变量 , al a2,… ,an 为 n 个 常数 , 我 们 有 


El[laiX1 十 Q2 及 1 十 .十 anXn] 一 ai 互 [X3] 十 a2E[X2] 十 … 十 an 也 [Xn]. 
例 2.10 (二 项 随机 变量 的 均值 ) ”你 的 概率 班 上 有 300 个 学 生 , 每 个 学 生 有 1/3 的 
概率 可 得 到 成 绩 A, 并 且 相 互 独立 . 记 X 为 班 上 取得 A 的 学 生 数 . X 的 平均 数 为 
多 少 ? 记 


二 1， 如 果 第 ;个 学 生得 A， 
” ”1o， 其 他 . 
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这 样 , Xi, X2,… ,XX 是 独立 的 伯 努 利 随 机 变量 序列 , 其 公共 均值 为 p = 1/3. 它们 
的 和 
X=X1+ Xo+.…+ Xn 
是 班 上 取得 A 的 人 数 . 由 于 XX 是 n 次 独立 重复 试验 中 “成 功 ” 的 次 数 , 它 是 二 项 
随机 变量 , 其 参数 为 n 和 yp. 
利用 X 是 诸 随 机 变量 X; 的 线性 函数 , 我 们 有 


300 300 1 1 
EIX] = 2 E00 = > 3 = 300. 子 = 100. 
如 果 我 们 把 这 个 问题 提成 一 般 的 问题 , 设 班 上 有 nn 个 学 生 , 每 个 学 生得 A 的 概率 
为 p, 则 


EIX] = 》 EIX:] = > p= np. 口 
?一 1 i=1 


例 2.11 (帽子 问题 ) ”假设 一 共有 n 个 人 , 将 他 们 的 帽子 放 在 一 个 盒子 里 , 又 随机 
地 从 中 拿 起 一 个 帽子 (每 个 人 只 拿 一 个 帽子 , 并 且 人 和 帽子 的 各 种 对 应 都 是 等 可 能 
的 ). 拿 回 自己 的 帽子 的 人 数 的 平均 数 是 什么 ? 

对 于 每 个 人 i, 如 能 拿 到 自己 的 帽子 , 则 定义 X; = 1, 否则 大 = 0， 由 于 
PC =H=Im 和 PO =0=1-1/m 总 的 平均 值 为 


1 1 1 
BX 13+0(1- 汪 ) = 二 
n nj nn 

二 六 十 XX2 十 … 十 Xn， 


可 知 
BIX] = EX + ELXa] + .+ BXo] =n: =1. 口 


关于 联合 分 布 列 的 小 结 
设 瑟 和 7 为 在 某 个 试验 中 的 随机 变量 . 
。 XX 和 YY 的 联合 分 布 列 px,y 由 下 式 定义 


px,Y(z,y) = P(X = 7,Y = Y). 


。 广 和 YY 的 边缘 分 布 列 可 由 下 式 得 到 
PX(7) = > pxy(z,g， pr(y) = Dpxy(z,Y). 
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。 XX 和 YY 的 函数 g(X,Y) 是 一 个 随机 变量 , 并 且 
ig(X,Y)] = 2 2 (2, px,Y (719). 


若 9 是 线性 的 , 且 g==aX ++bY 十 c, 则 


ElaX +obY +c = aE[X] + bE[Y] + 


。 上面 的 结论 可 以 自然 地 推广 到 两 个 以 上 的 随机 变量 的 情况 . 


2.6 条 件 


在 第 1 章 中 , 我 们 已 经 指出 条 件 可 以 给 某 些 事件 提供 补充 信息 , 当然 条 件 也 可 
以 对 随机 变量 取 某 些 值 提供 某 些 补充 信息 . 我 们 将 引进 随机 变量 条 件 分 布 列 的 概 
念 , 此 处 的 条 件 是 指 某 个 事件 的 发 生 或 其 他 随机 变量 的 值 的 给 定 . 本 节 将 讨论 条 件 
分 布 列 的 性 质 . 实际 上 , 条 件 的 概念 并 不 是 新 的 , 我 们 只 是 根据 随机 变量 的 特点 , 重 
新 细 述 一 遍 , 引进 一 些 新 的 记号 而 已 . 
2.6.1 ” 某 个 事件 发 生 的 条 件 下 的 随机 变量 

在 某 个 事件 4(P(4) > 0) 发 生 的 条 件 下 , 随机 变量 X 的 条 件 分 布 列 由 下 式 定 
义 : 
P({X = zyna4) 

P(A) : 
注意 , 对 于 不 同 的 x, {X = zx}n 4 是 互 不 相 容 的 事件 , 它们 的 并 为 4. 因此 


= P(X=2}NA). 


px|A(z) = P(X = 7z|4) = 


比较 得 到 的 两 个 式 子 , 可 以 看 出 
Dpxia(z) = 1, 


故 pxla 符合 分 布 列 的 要 求 . 

条 件 分 布 列 的 计算 也 与 无 条 件 分 布 列 的 计算 一 样 , 将 满足 XX = z 并 且 属 于 4 
的 试验 结果 的 概率 相 加 , 最 后 除 以 P(4), 便 得 到 pxj4(z) 的 值 . 
例 2.12 令 X 为 滚动 一 个 均匀 的 6 面体 般 子 所 得 到 的 点 数 , 4 表示 滚动 后 得 到 
偶数 点 的 事件 . 利用 前 面 得 到 的 公式 
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pxlA(k) = P(X = 8 滚动 后 得 到 偶数 ) 
_ P(X = k 和 XX 是 偶数 ) 
”了 (滚动 后 得 到 偶数 ) 
全 若 大 = 2,4,6， 


0， ”其 他 , D 


例 2.13 一 个 学 生 参 加 某 种 测验 , 他 可 以 多 次 重复 地 参加 测验 , 但 最 多 不 能 超过 m 
次 . 每 次 测验 以 概率 p 通过 , 而 且 与 前 几 次 的 测验 结果 独立 . 假定 学 生 已 经 通过 的 
条 件 下 , 他 测验 次 数 的 分 布 列 是 什么 ? 

令 4 是 学 生 最 终 通过 测验 的 事件 (他 最 多 参加 n 次 测验 ). 我 们 引进 随机 变量 
XX, 六 表示 为 了 通过 测验 所 需要 参加 测验 的 次 数 (假定 容许 他 无 数 次 参加 测验 ). X 
是 一 个 几何 随机 变量 , 其 参数 为 p. 刻画 条 件 的 事件 是 4 = {X < n}. 这 样 


ne 


P(A)= >》 (1—p)™!y, 


m=1 
从 而 , 学 生 测 验 次 数 的 条 件 分 布 列 为 
QP) Pp 车 k= 1 
DxI4(K) = (1 一 中) 有 ip 
0， 其 他 ， 
见 图 2.11 的 说 明 . 口 
px( 侣 pxl4( 谷 


图 2.11 例 2.13 中 计算 条 件 分 布 列 pxla(%k) 的 图 示 说 明 ， 首先 将 X 的 无 条 件 分 布 列 px (k) 
进行 修改 : 将 所 有 不 在 4 中 的 ,其 分 布 列 的 值 清 成 0. 然后 将 所 有 的 分 布 列 的 值 除 
以 P(4), 进行 归 一 化 , 得 到 条 件 分 布 列 


图 2.12 给 出 了 计算 条 件 分 布 列 更 一 般 的 说 明 . 
2.6.2 ”给 定 另 一 个 随机 变量 的 值 的 条 件 下 的 随机 变量 
设 某 一 个 试验 中 有 两 个 随机 变量 X 和 Y. 我 们 假定 随机 变量 了 已 经 取 定 一 
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样本 空间 
Q 


图 2.12 计算 条 件 分 布 列 pxla(z) 的 图 示 说 明 . 对 每 一 个 >, 将 属于 事件 {X = zjm 4 的 试验 
结果 的 概率 相 加 , 再 除 以 P(4) 以 归 一 化 , 得 到 pxla(z) 的 值 


个 值 y (py(y) > 0), 这 个 y 值 提供 了 关于 XX 取 值 的 部 分 信息 . 这 些 信 息 包含 于 XX 
的 给 定 Y 的 值 的 条 件 分 布 列 pxjy 中 . 所 谓 条 件 分 布 列 就 是 pxla, 其 中 事件 4 就 
是 事件 {Y = ): 

pxlY (zx|y) =P(X = zlY =). 


利用 条 件 概 率 的 定义 , 我 们 有 


pxv lol) = = ee. 


现在 我 们 固定 y 的 值 (py(y) > 0), 考察 xz 的 函数 pxjy(zly)， 这 个 函数 符合 
XX 的 分 布 列 的 要 求 : 对 每 个 z, pxlr(zly) > 0, 并 且 将 这 些 值 累加 后 得 1. 另外 , 作 
为 z 的 函数 , 其 形状 与 px,y(x,y) 相似 . 两 者 相差 一 个 因子 py (y), 这 个 因子 使 得 
pxlY (Z|y) 满足 条 件 


>》 pxly(zly) = 1 
图 2.13 展示 了 条 件 分 布 列 的 特性 . 
利用 公 对 
Px,Y (X,Yy) = py (ypxIY (zly), 
或 利用 


PDX,Y (X,Y) 一 PX(Z)PylIx(ylz)， 


可 以 计算 联合 分 布 列 . 该 方法 类 似 于 第 1 章 中 的 序 贯 树 形 图 的 乘法 规则 . 下 面 提供 
一 个 例子 . 

例 2.14 霍 许 对 教授 在 为 学 生 答疑 时 常 有 答 错 问题 的 现象 . 她 每 次 答 错 问题 的 
概率 为 1/4, 而 且 各 题 的 答疑 是 独立 的 . 每 堂 课 上 , 同学 提问 的 问题 可 能 有 0,1 或 
2 个 , 相应 的 概率 均 为 1/3， 记 X, 了 分 别 为 一 堂 课 上 同学 提问 的 次 数 和 回答 错 
误 的 次 数 . 为 得 到 和 和 Y 的 联合 分 布 列 , 我 们 必须 对 每 一 组 值 (x,y) 计算 概率 
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P(XX= xz,Y =). 这 可 以 利用 序 贯 树 形 图 的 乘法 规则 ( 见 图 2.14 的 说 明 ). 例如 , 在 
课堂 上 , 只 提出 一 个 问题 并 回答 错误 的 概率 为 


1 1 1 
px,Y (1,1) = px(z)prix(yls) = 547= 石 : 
条 件 分 布 列 pxlr(2|3) 


将 联合 分 布 列 切 片 
成 为 条 件 分 布 列 pxly( 了 切 


I 
条 件 分 布 列 pxly(2|2) 


条 件 分 布 列 pxiy(z|1) 


联合 分 布 列 px yz 切 


图 2.13 计算 条 件 分 布 列 pxly(zly) 的 图 示 说 明 . 对 每 一 个 y, 将 可 以 将 pxlr(zly) 看 成 联合 
分 布 列 px,y(z,y) 沿 YY =y 的 一 个 切片 , 并 且 归 一 化 后 使 得 


Dpxly (Zl) =1 


概率 : 1/48 
概率 : 6/48 
y 
概率 : 9/48 
wa ?| | lv 
概率 : 16/48 0 1 2 了 
列表 形式 的 联合 
X: 提出 题 数 Y: 回答 错误 的 分 布 列 px yz 功 
问题 数 


图 2.14 计算 例 2.14 中 的 联合 分 布 列 px,y (zx,y) 
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可 将 联合 分 布 列 的 数值 列 成 一 个 表 ( 见 图 2.14). 这 个 表 可 以 用 于 计算 任何 相 
关 事件 的 概率 . 例如 
P( 霍 许 对 教授 在 堂上 有 回答 错误 的 现象 ) = px,y(1l,1) + px,y(2,1) + px,y(2,2) 
= 去 十 元 十 去 . 口 
条 件 分 布 列 也 可 以 用 于 计算 边缘 分 布 列 , 即 有 
px(2) = >_pxy(z,y) = > pr (ypxly (zly). 


这 个 公式 就 是 第 1 章 中 的 全 概率 公式 , 不 过 用 了 不 同 的 记号 而 已 . 下 面 是 一 个 例子 . 
例 2.15 考虑 计算 机 网 络 中 的 一 个 信息 传送 器 . 下 面 是 有 关 的 随机 变量 . 


X : 给 定 消息 的 传送 时 间 ”YY : 给 定 消息 的 长 度 . 
我 们 知道 给 定 消息 长 度 的 条 件 下 传送 时 间 的 分 布 列 和 消息 长 度 的 分 布 列 . 我 们 希 
望 找到 传送 一 个 消息 的 时 间 的 (无 条 件 ) 分 布 列 . 


假定 一 个 消息 的 长 度 可 以 取 两 个 可 能 值 ;: y = 10? 和 y = 104( 单 位 : 比特 ), 取 
值 的 概率 分 别 为 5/6 和 1/6. 这 样 


(y) = 5/6, 若 y= 102, 
YT 1/6， 若 y= 104. 


传送 时 间 依 赖 于 消息 的 长 度 和 当时 网 络 的 拥塞 程度 , 特别 传送 时 间 为 10-4Y 的 概 
率 为 1/2, 传送 时 间 为 10-3Y 的 概率 为 1/3, 传送 时 间 为 10-2Y 的 概率 为 1/6. 这 
样 , 我 们 得 到 


1/2， 车 z= 10-?2， 1/2， 攻 z= 1， 
pxiY(z|107) = 41/3， 车 z=10-!， pxjy(z|104)= $1/3， 车 z= 10， 
1/6， 车 z=1; 1/6， 若 zx = 100. 


为 找到 X 的 分 布 列 , 我 们 利用 全 概率 公式 


PX) = 》 pr(g)pxiy(z， 


得 到 j 
Px(10-) = a 
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最 后 , 我 们 可 以 将 条 件 分 布 列 的 概念 推广 到 含有 两 个 以 上 的 随机 变量 的 情况 ， 
例如 px,yjz(zx,y|z) 或 pxlrz(zly z) 的 情况 . 但 是 这 种 概念 和 方法 的 推广 是 没有 难 
度 的 . 


关于 条 件 分 布 列 的 小 结 
设 关 和 YY 为 某 一 试验 中 的 两 个 随机 变量 . 
。 条 件 分 布 列 与 无 条 件 分 布 列 完 全 类 似 , 其 差别 只 是 前 者 是 在 已 知 菜 事件 发 
生 的 条 件 下 的 随机 变量 的 分 布 列 . 
。 设 4 为 某 事件 , P(4) > 0. 随机 变量 和 在 给 定 4 发 生 的 条 件 下 的 条 件 分 
布 列 为 


Pxia(7) = P(X = 2|A), 
并 是 满足 
》_ pxia(z)] =1. 


。 设 A1,.… ,An 是 一 组 互 不 相 容 的 事件 ,并 且 形 成 样本 空间 的 一 个 分 割 . 进 
一 步 假定 P(4z) > 0 对 一 切 成立 , 则 


px(z) = > _ P(4i)pxia: (z). 


?一 1 


(这 是 全 概率 定理 的 一 种 特殊 情况 .) 进一步 假定 事件 B 满足 对 一 切 证 
P(Ai; NB) > 0， 则 


pxlB(z) = 》 P(4i|B)pxlans(z). 


e 给 定 Y =y 的 条 件 下 三 的 条 件 分 布 列 与 联合 分 布 列 之 间 有 下 列 关系 
PxX,Y (7,Yy) = py (VpxlY (x|y). 


。 给 定 Y 之 下 的 关 的 条 件 分 布 列 可 以 通过 以 下 公式 计算 和 的 边缘 分 布 列 : 


px(7) = 》 ,py (ypxlr (zly). 
。 上 面 的 结论 可 以 自然 地 推广 到 两 个 以 上 的 随机 变量 的 情况 . 


2.6.3 ”条 件 期 望 
条 件 分 布 列 就 是 一 个 通常 的 分 布 列 , 不 过 它 的 样本 空间 由 条 件 所 限定 的 试验 结 
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果 组 成 , 相应 的 事件 的 概率 变 成 条 件 概 率 . 同样 的 原因 , 条 件 期 望 就 是 通常 的 期 望 ， 
不 过 试验 结果 的 空间 由 条 件 所 限定 的 试验 结果 所 组 成 ， 相 应 的 概率 和 分 布 列 都 换 
成 条 件 概率 和 条 件 分 布 列 (关于 条 件 方 差 的 处 理 是 完全 类 似 的 ). 下 面 列 出 有 关 的 
定义 和 性 质 . 


关于 条 件 期 望 的 小 结 
设 X 和 YY 为 菜 一 试验 中 的 两 个 随机 变量 . 
。 设 A 为 某 事件 , P(A) > 0. 随机 变量 X 在 给 定 4 发 生 的 条 件 下 的 条 件 期 
望 为 


EIX|A4] = 》 xzpxla(z) 
对 于 函数 g(X), 我 们 有 


Elg(X)|4] = 2 900) )pxl4(z 


。 给 定 了 =2 的 条 件 下 XX 的 条 件 期 望 由 下 式 定义 


EIX|IY =Yy = zpxly (zly). 


。 设 41,.… ,An 是 互 不 相 容 的 事件 并 且 形 成 样本 空间 的 一 个 分 割 ， 假 定 
P(A4i) > 0 对 一 切 i 成立. 则 


E[X] = 2 E[X|Ail. 
E[X|B] = YP(AB)EIXIA; NBl. 
i=1 


。 我 们 有 


= >_pY (YEIXIY =Y. 
y 


上 述 最 后 的 三 个 等 式 适 用 于 不 同 的 场合 , 但 它们 本 质 上 是 相互 等 价 的 . 它们 都 
可 以 称 为 全 期 望 定理 . 这 些 定理 表达 了 这 样 的 一 个 事实 : “无 条 件 平均 可 以 由 条 件 
平均 再 求 平均 得 到 .” 通 过 全 期 望 定理 可 利用 条 件 概率 或 条 件 期 望 计算 无 条 件 期 望 
EI[X]. 现在 验证 三 个 公式 中 的 第 一 个 公式 . 先 写 出 全 概率 公式 
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px(2) = DP(Ai)pzla; (z|Ai), 


i=1 


再 在 两 边 乘 xz 并 对 一 切 x 求 和 , 得 到 
= 2 ZDX(Z) 


一 -2 DP i)polAi(T|As) 
= DO P(A) DapanlelA) 
= -Dna i)E[X|Ail. 


其 他 两 个 公式 的 验证 是 类 似 的 . 
例 2.16 ” 设 波 士 顿 的 一 台 计 算 机 通过 数据 网 络 发 送 消息 : 发 往 纽约 的 概率 为 0.5， 
发 往 芝加哥 的 概率 为 0.3, 发 往 旧 金山 的 概率 为 0.2. 传输 的 时 间 X 是 一 个 随机 变 
量 , 发 往 纽约 时 的 平均 时 间 为 0.05 秒 , 芝加哥 为 0.1 秒 , 旧金山 为 0.3 秒 . 利用 全 期 
望 公式 很 容易 得 到 

E[X] = 0.5 .0.05 + 0.3. 0.1 + 0.2.0.3 = 0.115( 秒 ). 口 


例 2.17 (几何 随机 变量 的 均值 和 方差 ) 你 一 次 又 一 次 地 写 一 个 计算 机 软件 , 每 写 

一 次 都 有 一 个 成 功 的 概率 p. 假定 每 次 成 功 与 否 与 以 前 的 历史 记录 相互 独立 . 令 X 

是 你 一 直到 成 功 为 止 所 写 的 次 数 (最 后 一 次 你 成 功 了 ! ). X 的 期 望 和 方差 是 多 少 ? 
由 于 X 是 一 个 几何 随机 变量 , 其 分 布 列 为 


px(k)= (1—p)* lp, k=1,2,.... 
XX 的 均值 和 方差 的 公式 是 


Oo 


EIX] = >,k(1—p)* lp, var(X)= >,(k— EIX])?(1 — p)*-ip. 
天 一 1 k=1 
计算 上 面 的 无 穷 级 数 有 一 些 麻烦 . 我 们 利用 全 期 望 定理 进行 计算 . 记 41 = {X= 
1} = {第 一 次 就 写成 功 }, 4a = {X > 1} = {第 一 次 没有 成 功 }. 如 果 第 一 次 就 写成 
功 (X = 1), 这 样 
ELXIX=1]=1. 
如 果 第 一 次 失败 (X > 1), 我 们 浪费 了 一 次 努力 , 必须 重新 开始 . 这 样 


ELX|X > 1] =1+E[X]. 


94 第 2 章 离散 随机 变量 


因此 , 由 全 期 望 定理 
E[X] = P(X = 1)E[IXIX=1+P(X > 1)E[XIX >1] 
= p+(1—p)(l+ ELX)). 


由 此 可 得 1 
EIX] = =. 
了 
相似 地 , 我 们 有 
EIX*|IX=1=1, EX2X>1=E(+X))]=1+2EX]+ ELX?, 
故 
E[X2] =p:1+(1—p)(l +2E[LX] + EIX2]), 
从 而 
E[X?] 1 十 2(1 本 
E[X?] = 二 一 > 


最 后 我 们 得 到 
2 2 2 1 1 1-p 
var(X) = EIX“] — (ELX]) 玉 -p 
例 2.18 (两 个 信封 的 悖 论 ) ”这 是 一 个 引起 广泛 兴趣 的 智力 测验 问题 , 它 涉及 有 关 
条 件 期 望 的 数学 要 点 . 
主持 人 给 你 两 个 信封 , 并 且 告 诉 你 两 个 信封 里 有 现金 , 其 中 一 个 信封 里 的 钱 是 
另 一 个 信封 里 的 m 倍 (m > 1, 且 是 一 个 整数 ),， 当 你 打开 其 中 一 个 信封 , 看 到 信封 
里 面 的 钱 数 以 后 , 你 可 以 收 下 这 个 信封 里 面 的 钱 作为 你 的 奖金 , 也 可 以 要 另 一 个 信 
封 里 的 钱 作 奖金 . 有 什么 好 的 策略 可 使 你 拿 到 较 多 的 奖金 ? 
下 面 有 一 个 推理 , 其 结论 是 有 利于 换 信封 的 . 令 4 是 你 打开 的 信封 , B 是 你 
可 能 换 的 信封 . 令 z 和 y 分 别 为 信封 4 和 B 中 的 钱 数 . 论证 如 下 : y = z/m 或 
y = mz, 两 种 情况 发 生 的 概率 分 别 为 1/2. 因此 , 给 定 的 z, y 的 期 望 值 为 


1 Zz 1 1/1 1 十 rn 
一 一 十 一 .mz 二 二 万 t+™ T= 了 二 0. 


2 mm 2 2 


这 样 , 你 应 该 总 是 转向 信封 B. 当 你 转向 B 的 时 候 , 由 于 同样 的 理由 , 又 得 转 回 到 
4. 这 样 陷入 了 矛盾 之 中 . 
在 这 个 悖 论 中 , 有 两 个 假设 是 有 环 疫 的 . 
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(a) 对 于 两 个 信封 内 的 钱 你 无 法 先知 先觉 . 当 给 定 z 的 值 以 后 , 你 只 知道 y 的 
值 等 于 z 的 m 倍 或 1/m 倍 . 当然 , 你 没有 理由 假定 哪 种 情况 更 有 可 能 . 
(b) 用 随机 变量 X 和 了 表示 两 个 信封 内 的 钱 数 . 车 


BEIYIX=zl>z 


对 一 切 z 成立, 那么 “总 是 转向 了 ”能 够 得 到 更 多 的 期 望 奖金 . 

现在 仔细 分 析 这 两 种 假设 . 

假设 (a) 是 有 甫 疣 的, 因为 它 没有 说 明 相 应 的 模型 . 事实 上 , 一 个 确定 的 模型 ， 
各 种 事件 , 包括 X 和 YY 的 可 能 取 值 , 都 应 该 有 确定 的 概率 . 有 了 X,Y 的 概率 知识 ， 
X 的 值 一 定 会 提供 Y 取 值 的 某 些 知识 . 例如 某 人 选择 2 元 放 在 一 个 信封 内 , 2 的 
取 值 范围 为 [z, 习 内 的 整数 , 并 且 服 从 某 个 分 布 率 , 而 在 另 一 个 信封 内 放 入 z 的 mm 
倍 的 钱 数 . 然后 , 你 以 等 概率 从 两 个 信封 中 随机 地 抽取 一 个 信封 , 看 里 边 的 钱 数 X 
的 值 . 当 X 的 值 比 z 大 的 时 候 , 你 可 以 肯定 你 拿 到 的 信封 里 的 钱 数 是 比较 多 的 ， 
此 你 不 必 换 信封 . 若 你 拿 到 的 钱 数 等 于 z 的 值 , 那 你 可 以 肯定 另 一 个 信封 中 的 钱 数 
比 z 多 , 因此 你 必须 换 信封 . 大 致 上 可 以 这 么 说 , 如 果 你 若 能 够 知道 X 的 值 域 或 取 
值 的 可 能 性 , 你 就 可 以 知道 X 的 值 比较 小 , 还 是 比较 大 , 这 样 就 可 以 决定 是 否 应 该 
换 信封 了 . 

从 数学 上 说 , 一 个 概率 模型 中 , 我 们 一 定 能 够 找到 X 和 了 (信封 4 和 B 中 的 
钱 数 ) 的 联合 分 布 率 . X 和 了 的 联合 分 布 率 可 由 两 个 信封 中 的 钱 数 的 最 小 者 2 的 
分 布 率 所 确定 . 设 2Z 的 分 布 率 为 pz. 则 对 一 切 z， 


PX,Y (m2z, 2) = px,Y (2, mz) = 3pz(2), 
对 于 不 具有 (mz, >) 或 (z,mz) 的 形式 的 (x,%y)， 
px,Y (X,Yy) = 0. 
当 px,y (x,y) 给 定 以 后 , 我 们 可 以 用 以 下 换 信 封 的 规则 : 
换 信封 的 充 要 条 件 为 EIY|X = zx] > z. 
按照 这 个 规则 , 可 以 确定 换 或 者 不 换 信 封 . 
现在 的 问题 是 : 按照 上 述 的 模型 和 转换 规则 是 否 可 以 按照 某 些 x 的 值 , 转换 信 
封 , 而 另 一 些 x 的 值 不 能 转换 ? 一 般 情 况 下 是 可 以 的 , 例如 早先 举 出 的 2 的 值 域 为 
有 界 集合 的 情况 , 就 可 以 实现 这 样 的 转换 规则 . 然而 , 下 面 的 一 个 稍 显 怪 个 的 例子 ， 
使 得 你 总 是 换 信封 . 
挑 扼 一 枚 均匀 的 硬币 , 直到 出 现 正 面 为 止 . 记 N 为 抛 抑 硬币 的 次 数 . 此 时 你 将 


mY 元 放 进 一 个 信封 内 , 将 mN-! 元 放 进 另 一 个 信封 内 . 令 X 是 你 打开 的 那个 信 
封 (信封 4) 内 的 钱 数 , Y 是 另 一 个 信封 (信封 B) 内 的 钱 数 . 
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现在 假定 4 中 只 有 1 元 钱 , 显然 B 中 含有 m 元 , 你 应 该 换 信 封 . 当 4 内 含有 

m" 元 的 时 候 , B 中 或 者 含有 m"-! 元 钱 或 mn+1l 元 钱 . 由 于 N 具有 几何 分 布 列 ， 
我 们 有 

PY =m"X=m") POY=m"t,X=m") P(N=n+1) 1 


PY=mm-iX=m) PY=mml,X=m) P(N=n) 2 
这 样 我 们 有 
1 


P(Y =m™ 1lX =m")= 3 P(Y =m™tiX = mm”) = 3 


ER 
(2+m?2)/(3m) > 1 的 充 要 条 件 是 m2 一 3m+2> 0 或 (m—1)(m-2)>0. 车 n> 2, 


则 


E[ 信 封 B 中 的 钱 数 | 和 = mm?] > m". 


这 样 , 为 了 获得 最 大 的 期 望 奖 金 , 你 应 该 转向 信封 B. 在 这 个 例子 中 , 由 于 对 一 切 z 
的 值 ， 
ElY|X = zl > z， 


你 选择 B. 直观 地 看 , 利用 全 期 望 定理 , 应 该 有 结论 EIY] > E[X]. 然而 , 由 于 X 和 
Y 具有 相同 的 分 布 列 , 结论 E[Y] > E[X] 不 可 能 成 立 . 实际 上 , 我 们 有 
E[Y] = E[X] = co， 


这 个 结论 与 EIY|X = z] > x,vz 并 不 矛盾 . 当 E[Y] = E[X] = oo 的 情况 下 , 利用 关 
系 式 EIYIX = x] > z 而 转换 信封 并 不 能 够 改进 平均 奖金 . 从 而 解决 了 悖 论 问 题 . 


2.7 独 立 性 


现在 讨论 与 随机 变量 相关 的 独立 性 的 概念 ， 这 些 概念 与 事件 之 间 的 相互 独立 
性 的 概念 是 相同 的 ( 见 第 1 章 ). 只 须 引 进 由 随机 变量 导出 的 相关 的 事件 , 再 讨论 这 
些 事件 的 相互 独立 性 . 
2.7.1 ”随机 变量 与 事件 的 相互 独立 性 

随机 变量 与 事件 的 独立 性 的 概念 与 两 个 事件 的 相互 独立 性 的 概念 是 相同 的 . 其 


基本 思想 是 刻画 条 件 的 事件 的 发 生 与 否 不 会 对 随机 变量 取 值 提供 新 的 信息 . 更 具体 
地 说 , 随机 变量 X 独立 于 事件 4 是 指 


P(X =z 和 4) = 了 P(X = z)P(4) = px(z)P(4)，YVz， 
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这 个 条 件 等 价 于 : 对 任何 z, 随机 事件 {X = x} 与 事件 4 的 相互 独立 性 . 但 是 , 由 
条 件 分 布 列 的 定义 ， 
P(X=z 和 4) = pxla(z)P(4)， 


所 以 , 只 要 P(4) > 0, 随机 变量 X 与 事件 4 的 独立 性 与 下 面 的 条 件 是 等 价 的 : 
PXIA(T) = px(T), VzY. 


例 2.19 ”考虑 独立 地 抛 丘 一 枚 均匀 的 硬币 , 共 抛 掷 两 次 . 令 X 是 正面 向 上 的 次 数 ， 
4 是 正面 出 现 的 次 数 为 偶数 . X 的 (无 条 件 ) 分 布 列 为 
1/4， 若 z= 0， 
px(Z) = 41/2， 著 z = 1， 
1/4， 车 z=2， 


而 P(4) = 1/2. 由 条 件 分 布 列 的 定义 知 pxl4 = P(X = zx 和 A)/P(A): 


1/2， 若 z= 0， 

PxlA(7) 二 $40， 车 z=1， 

1/2， 若 z= 2. 
显然 , 由 于 px 和 pxja 不 相同 , X 和 事件 4 是 不 独立 的 . 若 随 机 变量 是 这 样 定义 
的 : 第 一 次 抛掷 得 正面 向 上 , 则 取 值 为 0, 若 第 一 次 抛 扼 得 反面 向 上 , 则 取 值 为 1. 


显然 这 样 定义 的 随机 变量 从 直观 上 看 出 与 事件 4 是 相互 独立 的 . 当然 也 可 从 独立 
性 的 定义 直接 验证 . 口 


2.7.2 ”随机 变量 之 间 的 相互 独立 性 


随机 变量 之 间 的 相互 独立 性 与 随机 变量 和 随机 事件 的 相互 独立 性 的 概念 是 完 
全 相同 的 . 随机 变量 X 和 了 称 为 相互 独立 的 随机 变量 , 若 它 们 满足 


DPXx,Y (TY) = px(z)py(y), Vr,y. 


这 等 价 于 对 于 任意 > 和 y, 随机 事件 XX = x 和 了 = y 相互 独立 ， 最 后 , 由 公 导 
Px,Y (Zz,y) = pxlY (zx|y)py (y) 可 知 随机 变量 X 和 Y 的 相互 独立 性 的 条 件 等 价 于 


pxly(zly) = px(z)， vz 和 一 切 满足 py(y) > 0 的 y. 


直观 上 , Y 和 X 的 独立 性 意味 着 Y 的 取 值 不 会 提供 X 取 值 的 信息 . 
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在 给 定 事 件 4 的 条 件 下 (P(4) 必须 大 于 0! ) 也 可 以 定义 两 个 随机 变量 的 条 
件 独 立 性 . 在 给 定 事件 4 的 条 件 下 , 所 有 的 事件 的 概率 都 换 成 关于 条 件 4 的 条 件 
概率 . 例如 , 我 们 称 随机 变量 X 和 YY 是 条 件 独 立 的 , 如 果 它 们 满足 


P(X=z,Y=yA)=P(X=7z|A)P(Y =yA), vz 和 y, 
或 者 利用 本 章 的 记号 
Px,YIA(T,Y) = px|a(z)prIa(y), Vz 和 y. 
这 个 结论 与 下 式 是 等 价 的 : 
pxlva4a(zly) = pxjA(z)，YVz 和 y, 但 y 必须 满足 条 件 py(y) > 0. 


在 1.5 节 中 曾经 提 到 事件 的 条 件 独立 性 并 不 包含 独立 性 , 反之 亦 然 . 在 随机 变量 的 
场合 下 情况 也 是 如 此 . 图 2.15 中 的 例子 说 明了 这 种 情况 . 


4/20 1/20 | 2/20 

SR 

加 四 本 
h 2 3 4 


2.15 表 中 数据 说 明 条 件 独 立 与 独立 并 不 等 价 表 中 的 分 布 列 说 明 X 和 Y 是 相互 不 独立 的 . 
例如 


也 


pxlr(1ll) = P(X=1lY=1)=0#P(X=1)=px(l). 
另 一 方面 , 若 将 事件 4 = {X < 2,Y > 3}( 图 中 阴影 部 分 的 试验 结果 之 集合 ) 作为 条 
件 事件 , 则 随机 变量 X 和 YY 是 条 件 独 立 的 . 我 们 有 
1/3， 车 z=1， 
2/3， 若 z= 2， 


DxIwa4(zZ|y) = | 
对 于 y= 二 3 和 vy 一 4 都 成 立 


设 随 机 变量 X 和 了 相互 独立 , 则 
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EIXY] = EIX]E[Y, 
这 个 事实 可 从 下 面 的 一 系列 等 式 得 到 : 
E[XY] = > >》 zypx,Y (2,Y) 


TT Yy 


= -> 三 px z)py (y) (根据 独立 性 ) 
-> ZpX (2) > ypY(y 


= ELX]E[Y]. 


完全 类 似 的 计算 说 明 这 样 的 事实 : 若 X 和 Y 相互 独立 , 则 对 任意 函数 g 和 ,下 
式 成 立 ; 
Elg(X)h(Y)] = Elg(X)ELR(OY). 
事实 上 , 当 我 们 理解 到 这 样 的 事实 的 时 候 ， 上述 结 论 就 是 明显 的 了 : 由 久 和 Y 的 
相互 独立 性 可 以 蕴涵 g(X) 和 h(Y) 的 相互 独立 性 . 形式 的 验证 , 留 作 本 章 末 尾 的 
习题 . 
现在 考虑 两 个 独立 随机 变量 X 和 的 和 X+Y, 我 们 希望 求 出 XY 的 方差 
随机 变量 的 方差 具有 如 下 的 特性 : 随机 变量 加 上 一 个 常数 以 后 , 其 方差 保持 不 变 . 利 
用 这 个 特点 , 我 们 考虑 将 随机 变量 进行 平移 , 使 得 期 望 归 0. 令 况 一 X -EX], 立 = 
一 BIY], 这 样 
var(X+Y)= var( 总 十 也 ) 
= E[(X +Y)’ 
= E[X? + 2XY + Y¥2] 
= E[X?] + 2E[XY] + E[Y?] 
= var( 羡 ) + var(Y) 
= var(X)+ var(Y). 


在 上 述 一 系列 的 等 式 的 证 明 中 , 我 们 利用 了 BE[XY] = 0. 这 是 利用 了 独立 随机 变量 
的 性 质 的 结果 (由 于 多 和 了 分 别 是 独立 随机 变量 X 和 YY 的 函数 , 所 以 它们 也 相 
互 独立 ), 即 

EIXY] = E[X]E[Y] = 0. 
总 之 , 独立 随机 变量 的 和 的 方差 等 于 它们 的 方差 之 和 . 与 之 对 比 , 随机 变量 之 和 的 
期 望 等 于 随机 变量 期 望 的 和 ， 而 不 需要 任何 条 件 . 
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关于 独立 随机 变量 的 性 质 的 小 结 

设 在 某 一 试验 中 , 4 是 一 个 事件 , 满足 条 件 P(4) > 0, 又 设 和 和 了 是 在 同一 
个 试验 中 的 两 个 随机 变量 . 

。 称 X 为 相对 于 事件 4 独立 , 如 果 满 足 


PxIA(Z) 一 Dx(Z)， 对 一 切 z 成 立 ， 


即 对 一 切 z, 事件 {XX 二 Zz} 与 4 相互 独立 . 
。 称 XX 和 了 为 相互 独立 的 随机 变量 ， 如 果 对 一 切 可 能 的 数 对 (z,y), 事件 
{X=2} 和 {Y= 中 相互 独立 , 或 等 价 地 


PX,yY (ZT,y) 二 pxX(Z)py(y)， 对 一 切 zy 成立 . 
。 若 X 和 了 相互 独立 , 则 


EIXY] = EIX]E[Y]. 


进一步 地 , 对 于 任意 函数 g 和 上 h， 随机 变量 9g(X) 和 h(Y) 也 是 相互 独立 的 ， 
并 且 


Elg(X)h(Y)] = Elg(X)ELR(Y). 
。 若 区 和 TY 相互 独立 , 则 


var(X+Y)= var(X) + var(Y). 


2.7.3 ” 几 个 随机 变量 的 相互 独立 性 


前 面 的 关于 随机 变量 相互 独立 的 讨论 可 以 很 自然 地 推广 到 两 个 以 上 随机 变量 
相互 独立 的 情况 . 例如 , 我 们 称 随 机 变量 X,Y 和 2 是 三 个 相互 独立 的 随机 变量 ， 
如 果 它 们 满足 


PX,Y,2(T,Y,Z) = PX(T)py (YPpz(z)， 对 一 切 z,y,z 成 立 . 


设 X,Y, 2 是 三 个 相互 独立 的 随机 变量 , 则 任何 形 如 f(X),g(Y), h(2) 的 三 个 
随机 变量 也 是 相互 独立 的 . 相似 地 , 任何 两 个 随机 变量 g(X,Y) 和 h(2Z) 也 是 相互 
独立 的 . 但 是 形 如 g(X,Y) 和 h(Y, 2) 是 相互 不 独立 的 , 因为 它们 都 受 公共 的 随机 
变量 Y 的 影响 . 若 用 互 不 干扰 的 试验 结果 来 解释 独立 性 , 则 上 述 这 些 性 质 在 直观 上 
是 非常 清楚 的 . 但 是 形式 的 证 明 有 些 烦 琐 . 幸运 的 是 , 直观 和 数学 理论 通常 是 一 致 
的 . 这 主要 是 , 独立 性 的 定义 本 身 反 映 了 对 直观 的 解释 . 
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2.7.4 ”若干 个 相互 独立 的 随机 变量 的 和 的 方差 


相互 独立 的 随机 变量 的 和 出 现在 许多 重要 的 场合 . 例如 在 测量 问题 中 , 为 了 减 
少 测量 误差 , 通常 是 把 若干 个 独立 的 测量 值 的 平均 值 作为 目标 物 的 测量 值 . 在 处 理 
若干 个 相互 独立 的 随机 源 的 累计 效果 时 , 也 会 遇 到 随机 变量 和 的 方差 问题 . 此 处 我 
们 仅 提 供 几 个 例子 , 后 面 的 几 章 将 会 回 到 这 个 主题 . 

在 以 下 的 例子 中 , 我 们 将 利用 下 面 的 重要 性 质 ; 设 X1,… , X 为 相互 独立 的 
随机 变量 序列 , 则 

var(X1 二 .+ Xn) = var(X1) + var(X,). 

这 个 结论 可 以 通过 反复 应 用 两 个 独立 随机 变量 之 和 的 方差 公式 var(X +Y) = 
var(X) 十 var(Y) 而 证 得 . 
例 2.20 (二 项 分 布 和 泊 松 分 布 的 方差 ) ”考虑 独立 地 抛 抑 一 枚 均匀 的 硬币 , 共 抛掷 
n 次 , 每 次 正面 向 上 的 概率 为 p， 对 每 个 i, 令 XX: 表示 刻画 第 i 次 抛 抑 硬 币 的 伯 
努 利 随机 变量 , 即 当 第 i 次 抛 抑 后 正面 向 上 , X; = 1, 否则 X; = 0 这样 XX = 
X1 十 Xz 十 … 十 Xn 是 二 项 随机 变量 . 由 于 各 次 抛掷 硬币 是 相互 独立 的 ,随机 变量 
X1,… ,Xn 是 相互 独立 的 , 故 可 利用 独立 随机 变量 和 的 方差 公开 


var(X) = 2 var(Xi) —p). 


2.2 节 已 经 指出 , 参数 为 和 的 油 检 随机 变量 可 以 看 作 二 项 随机 变量 的 极限 (二 
项 随机 变量 的 参数 n 和 p 满足 n 一 oo, p 一 0, 并 且 保 持 np = 六 这样， 对 应 
地 求 二 项 分 布 的 期 望 和 方差 的 极限 , 可 形式 地 得 到 泊 松 分 布 的 期 望 和 方差 : E[Y] = 
var( 了 ) = 入 . 我 们 已 经 在 例 2.7 中 证 明了 公式 E[Y] = 入 现 证 公式 var(Y) = 和. 
E[Y?] = > pre A 


k=1 


e 一 入 XK 一 1 

= -> 天 RE 
A 
= 入 3 k(m+ 1) 
m=0 
= A(E[Y] +1) 
一 和 (入 十 1)， 
由 此 得 到 
var(Y) = E[Y?] ~ (EIY])? = 和 AAT+TD 一 X2 一 入 口 


独立 同 分 布 的 随机 变量 的 加 权 和 的 均值 和 方差 的 公式 是 样本 均值 作为 随机 变 
量 的 期 望 的 估计 的 理论 基础 . 下 面 是 一 个 典型 的 例子 . 
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例 2.21 (样本 均值 的 期 望 和 方差 ) ”我 们 希望 估计 总 统 的 支持 率 . 为 此 , 我 们 随机 
地 选取 ”个 选民 , 询问 他 们 的 看 法 . 令 X; 表示 第 i 个 被 问 的 选民 的 态度 : 


人。 者 第 ;个 被 问 的 选民 支持 总 统 ， 
” 【oo， 着 第 ;个 被 问 的 选民 不 支持 总 统 . 


我 们 假定 X1,… , Xn 为 独立 同 分 布 的 伯 努 利 随机 变量 , 其 均值 为 p, 方差 为 p(1 一 p). 
此 处 我 们 将 p 认为 选民 支持 总 统 的 概率 , 并 且 将 调查 得 到 的 平均 反应 Sn 称 为 样本 
均值 


9 和 十 十 Xn 


ESn] = > - —E(Xi) -17- 2， 


t=1 


再 利用 随机 变量 X1,… , Xa 的 独立 性 , 得 到 


var(Sn) = 2 = Lvar(X, )= ZU 和 ZU 一 2) 
i=1 
Sn 被 认为 是 支持 率 p 的 一 个 很 好 的 估计 , 这 是 因为 它 的 期 望 刚 好 是 p, 而 反映 估计 
精度 的 方差 当 n 增 大 的 时 候 变 得 越 来 越 小 . 口 
注意 , 上 例 中 即使 X; 不 是 伯 努 利 随机 变量 , 结论 


var(X) 
n 

仍然 成 立 , 只 要 X; 之 间 相 互 独立 , 期 望 和 方差 与 i 无 关 . 这 样 样本 均值 仍然 是 随机 
变量 的 公共 期 望 的 一 个 好 的 估计 , 当 样 本 量 n 增 大 的 时 候 , 5 的 方差 变 得 越 来 越 
小 . 在 第 5 章 讨论 大 数 律 的 时 候 , 我 们 将 详细 讨论 样本 均值 的 这 个 特性 . 
例 2.22 (用 模拟 方法 估计 概率 ) ”在 许多 实际 问题 中 , 有 时 候 计 算 一 个 事件 的 概率 
是 十 分 困难 的 . 然而 我 们 可 以 用 物理 方法 或 计算 机 方法 重复 地 进行 试验 , 这 些 试验 
结果 可 以 显示 某 事件 是 否 发 生 . 利用 这 种 模拟 方法 可 以 以 很 高 的 精度 计算 某 事件 的 
概率 . 我 们 可 以 独立 地 模拟 试验 n 次 , 并 且 记 录 n 次 试验 中 事件 4 发 生 的 次 数 m， 
用 m/n 去 近似 概率 P(4). 例如 在 抛 抑 硬 币 试验 中 , 为 计算 概率 p = P( 出 现 正面 )， 
我 们 独立 地 抛 奖 n 次, 用 比值 (记录 中 出 现 正 面 的 次 数 /n) 去 逼近 概率 p. 

为 计算 这 种 方法 的 精确 度 , 考虑 个 独立 同 分 布 的 伯 努 利 随 机 变量 X1,:… ,Xn， 
其 公共 分 布 列 为 


Var(Sn) = 


办 = P(A), 车 k=1， 
* 1 一 P(4)， 车 k=0. 
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此 处 X 相当 于 第 i 次 试验 中 事件 4 的 示 性 变量 , 即 当 事件 4 发 生 的 时 候 , X; 的 


取 值 为 1, 事件 4 不 发 生 的 时 候 , X; 的 取 值 为 0. 而 随机 变量 


二 
加 也 


X 


的 取 值 就 是 概率 P(4) 的 估计 值 . 由 例 2.21 的 结果 知 , X 的 期 望 为 P(A4), 方差 为 
P(A4)(1 一 P(4))/n. 故 m” 很 大 时 , X 提供 了 P(4) 的 精确 的 估计 . 口 


2.8 ”小结 和 讨论 


在 概率 模型 中 , 试验 结果 是 一 些 数值 的 时 候 , 随机 变量 是 一 个 很 自然 的 工具 . 
本 章 集中 讨论 离散 随机 变量 ， 为 离散 随机 变量 建立 了 理论 架构 和 引进 了 相应 的 工 
具 . 

特别 地 , 我 们 引入 了 一 些 基本 概念 , 例如 分 布 列 、 均 值 和 方差 . 这 些 概念 在 不 
同 程度 上 刻画 了 离散 随机 变量 的 概率 特征 ， 同 时 , 我 们 指出 , 为 了 计算 Y = g(X) 
的 期 望 和 方差 , 可 以 不 用 了 的 分 布 列 , 而 只 须 利 用 X 的 分 布 列 即 可 . 特别 地 , 当 g 
是 一 个 线性 函数 Y = aX 二 5 的 时 候 , X 和 YY 的 期 望 和 方差 具有 下 列 关 系 


ElY] = aE[X]+b, var(Y) = a2var(X). 


我 们 也 讨论 了 若干 具体 的 离散 随机 变量 , 并 且 导 出 了 分 布 列 、 均值 和 方差 , 其 
结果 如 下 . 


某 些 具 体 的 离散 随机 变量 的 小 结 
[a,b] 上 的 离散 均匀 分 布 (o, 为 整数 ): 


1 

TT 若 k=a,a 十 1,.…,b，, 

px(k)= /batl 
0， 其 他 ， 


BIX] = 2 var(X) = C= O00+2) 


参数 为 p 的 伯 努 利 随机 变量 (刻画 一 次 试验 成 功 或 失败 的 概率 模型) 


Kk) 一 也， 若 k=1， 


var(X) = p(1—p). 


EIX] = P， 
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一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
参数 为 p 和 n 的 二 项 随机 变量 (刻画 n 次 独立 重复 的 伯 努 利 试验 中 成 功 次 数 的 
随机 变量 ) 

px(k) 一 (rn, k=0,1,..- ) 7， 
EIX] = np， var(X)= np(l 一 站 ). 


参数 为 p 的 几何 随机 变量 (在 独立 同 分 布 的 伯 努 利 试验 序列 中 刻画 直到 第 一 次 
成 功 所 需 的 试验 次 数 的 随机 变量 ) 

px(k) = (1 — p)*-1y, k= 1,2,.., 
1—p 
p> 
参数 为 入 的 泊 松 随机 变量 ( 当 n 很 大 , p 很 小 , 和 = np 时 , 用 于 逼近 二 项 分 布 的 
随机 变量 . ) 


， var(X)= 


A 
px(k) = eT k=1,2,...,， 


E[X]=A, var(X)= 


我 们 也 讨论 了 多 元 随机 变量 和 它 的 联合 分 布 列 和 条 件 分 布 列 , 以 及 与 之 相关 的 
条 件 期 望 . 条 件 分 布 列 通常 还 是 定义 一 个 概率 模型 的 起 始点 , 它 可 以 用 于 计算 其 他 
的 概率 值 , 例如 边缘 分 布 列 或 联合 分 布 列 或 相应 的 期 望 值 . 特别 地 , 当 条 件 分 布 列 
pxlY (zx|y) 给 定 以 后 , 有 以 下 几 种 情形 . 

(a) 了 X,Y 的 联合 分 布 列 可 由 下 式 计 算 : 

px,Y (2,Y) = py (VpxlY (ZY). 
这 个 结果 可 以 推广 到 多 于 两 个 变量 的 情况 , 例如 : 
PX,Y,2(7,Y,z) = pz(z)py|z(Yy|2)pxlY,z (Ty, z2). 


这 个 公式 与 第 1 章 中 利用 序 贯 树 形 图 计算 概率 的 方法 类 似 . 
(b) X 的 边缘 分 布 列 可 用 下 式 计算 : 


px(z) = 》 py (Wpxiy (x,9). 
2 


这 个 公式 与 第 1 章 中 的 全 概率 公式 类 似 . 
(c) (b) 中 的 全 概率 公式 可 以 推广 成 为 全 期 望 公式 , 以 计算 随机 变量 X 的 期 望 : 


2 E[X|Y = yl. 
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类 似 于 事件 的 相互 独立 性 , 我 们 也 引进 了 独立 随机 变量 的 概念 . 特别 地 , 我 们 
引进 了 独立 随机 变量 的 和 : 
= XL 
我 们 证 明了 
E[X] = E[Xi]+:…:+E[Xn], var[X]= var[Xi| :+ var[X.,l. 


上 述 公 式 中 , 关于 随机 变量 和 的 期 望 的 公式 , 并 不 要 求 随机 变量 之 间 的 独立 性 , 但 
是 关于 随机 变量 的 和 的 方差 的 公式 却 要 求 随机 变量 之 间 的 独立 性 . 

在 第 3 章 中 , 我 们 将 本 章 中 的 概念 和 方法 推广 到 一 般 的 随机 变量 的 情况 . 随机 
变量 的 概念 是 概率 论 中 最 基本 的 概念 . 


习 题 


2.2 节 ”分 布 列 


1. MIT 足球 队 在 周末 计划 有 两 场 比赛 .第 一 场 比赛 不 败 的 概率 为 0.4, 第 二 场 比赛 不 败 的 
概率 为 0.7, 两 场 比赛 的 输赢 是 相互 独立 的 . 如 果 在 一 场 比赛 中 不 败 , 那么 他 们 在 比赛 中 
赢 球 或 平局 的 概率 是 相等 的 , 并 且 与 另 一 场 比赛 的 结果 是 相互 独立 的 ，MIT 足球 队 在 一 
场 比赛 中 的 得 分 情况 是 这 样 的 : 赢 球 得 2 分 , 平局 得 1 分 , 输 球 得 0 分 . 写 出 这 个 周末 
MIT 足球 队 得 到 的 总 分 的 分 布 列 . 

2. 你 参加 了 一 个 有 500 人 的 晚会 , 有 人 与 你 生日 相同 的 概率 有 多 大 ? 分 别 利用 精确 解 和 泊 

松 分 布 副 近 的 方法 计算 这 个 概率 (为 了 计算 简单 , 排除 2 月 29 日 这 种 特殊 的 情况 ). 

， 菲 切 尔 和 斯 帕克 两 人 下 国际 象棋 , 按 规定 第 一 个 赢得 一 盘 者 为 比赛 的 胜 者 ， 若 两 人 连续 
10 盘 和 局 , 则 宣称 两 人 言 和 . 在 每 盘 棋 中 菲 切 尔 赢 棋 的 概率 为 0.4, 输 棋 的 概率 为 0.3, 和 
棋 的 概率 为 0.3, 每 盘 棋 之 间 的 输赢 是 相互 独立 的 . 

(a) 菲 切 尔 赢得 比赛 的 概率 有 多 大 ? 
(b) 两 人 下 棋 的 盘 数 的 分 布 列 是 什么 ? 

.一 个 因特网 服务 商 备 有 50 个 调制 解 调 器 以 供 1000 个 用 户 使 用 . 估计 每 一 给 定时 刻 , 每 

个 用 户 使 用 因特网 的 概率 为 0.01, 而 且 使 用 者 之 间 相 互 独立 . 

(a) 在 给 定 的 时 刻 , 使 用 着 的 调制 解 调 器 数 的 分 布 列 是 什么 ? 

(b) 重复 (a) 题 , 利用 泊 松 分 布 列 逼 近 使 用 网 络 连 接 的 用 户 数 的 分 布 列 . 

(c) 计算 在 某 一 时 刻 使 用 人 数 超过 调制 解 调 数 的 概率 . (利用 精确 分 布 列 和 (b) 中 提供 的 
泊 松 逼近 分 布 列 分 别 进行 计算 .) 

5. 在 互连网 中 一 个 信息 包 通 信 系 统 的 组 成 是 : 一 个 临时 储存 信息 包 的 缓冲 器 , 这 个 缓冲 器 用 
于 储存 信息 源 送 来 的 信息 包 ; 一 条 通信 线路 , 从 缓冲 器 获取 信息 包 , 将 它们 传送 给 接收 者 . 
系统 将 工作 时 间 划 分 为 两 个 时 段 ， 在 第 一 时 段 ， 系统 将 信息 源 送 来 的 信息 包 放 在 缓冲 器 
内 . 信息 源 送 来 的 信息 包 的 个 数 是 随机 的 , 其 分 布 列 为 泊 松 分 布 列 , 分 布 的 参数 为 . 缓冲 
器 能 够 储存 的 信息 包 最 大 个 数 为 5, 车 信息 包 送 来 时 , 缓冲 器 已 经 存 满 的 时 候 ,那些 信息 
包 将 被 丢弃 . 在 第 二 时 段 , 将 缓冲 器 中 的 信息 包 传送 出 去 , 传送 出 c 个 信息 包 (0 < c < b， 


多 


心 
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c 是 一 个 给 定 的 常数 . 当 缓 冲 器 中 的 信息 包 的 个 数 小 于 c 的 时 候 , 就 将 缓冲 器 中 的 信息 包 
全 部 传送 出 去 ). 
(a) 假定 在 第 一 时 段 开始 时 , 缓冲 器 中 的 信息 包 的 个 数 为 0. 分 别 写 出 第 一 时 段 结 束 时 
和 第 二 时 段 结束 时 缓冲 器 中 的 信息 包 的 个 数 的 分 布 列 . 
(b) 求 在 第 一 时 段 有 信息 包 被 缓冲 器 丢弃 的 概率 . 
. 凯 尔 特 人 队 和 湖人 队 在 季 后 赛 中 相遇 , 双方 要 打 nn 场 比赛 , 其 中 n 为 奇数 ， 凯 尔 特 人 队 
每 赢 一 场 球 的 概率 为 p, 而 各 次 赢 球 是 相互 独立 的 . 
(a) 求 p 的 范围 , 使 得 对 于 凯 尔 特 人 队 来 说 , n = 5 比 n = 3 合算 . 
(b) 将 (a) 进行 推广 , 即 对 于 任何 k 的 值 , 找 出 p 的 范围 使 得 n=2k 十 1 比 n=2k 一 1 
对 凯 尔 特 人 队 更 合算 . 
你 刚 租 了 一 所 大 房子 , 房产 经 纪 人 给 你 5 把 钥匙 , 可 以 打开 5 肩 门 . 5 把 钥匙 外 形 完全 一 
样 . 为 了 打开 大 门 , 你 只 能 一 把 一 把 地 试 . 
(a) 找 出 你 打开 大 门 所 需 的 试验 钥匙 次 数 的 分 布 列 . 在 下 面 不 同 假设 之 下 分 别 算出 分 布 
列 : (1) 当 你 试 开 失 败 以 后 , 在 钥匙 上 做 一 个 记号 , 这 样 下 次 试 开 的 时 候 不 会 重 试 这 
把 钥匙 . (2) 每 次 试 开 失败 以 后 , 从 5 把 钥匙 中 随机 地 选 一 把 再 试 . 
(b) 重复 (a) 的 情形 , 这 次 经 纪 人 给 你 10 把 钥匙 , 其 中 每 一 扇 门 有 两 把 完全 相同 的 钥匙 . 
. 二 项 分 布 列 的 递 推 计算 公式 . 设 X 是 一 个 二 项 随机 变量 , 相应 的 参数 为 n 和 p. 证 明 其 
分 布 列 可 以 从 Px(0) = (1 一 p)” 开始, 利用 下 面 的 递 推 公式 计算 : 


全 


3 


om 


_p .nk 

1—p k+l 

二 项 分 布 列 的 形式 . 设 X 是 一 个 二 项 随机 变量 ,相应 的 参数 为 n 和 p. 令 hk* 是 小 于 或 

等 于 (n 十 1)p 的 最 大 整数 . 证 明 分 布 列 px (k) 在 [0, k*] 的 范围 内 相对 于 是 非 降 的 , 而 

在 有 > k* 的 范围 内 单调 递 降 . 

10. 泊 松 分 布 列 的 形式 . 设 XX 是 一 个 泊 松 随机 变量 , 相应 的 参数 为 A. 证 明 分 布 列 px (k) 
当 有 在 区 间 [0, 和 ] 的 整数 点 上 变化 时 是 单调 上 升 的 , 而 在 (和 ,co) 中 的 整数 点 上 变化 
时 是 单调 下 降 的 . 

11.* 火柴 问题 - 巴 拿 (Banach) 的 吸烟 习惯 引出 的 问题 . 一 位 爱 吸 烟 的 数学 家 的 左右 口袋 
各 放 一 盒 火 柴 . 每 次 吸烟 时 , 他 随机 地 从 左右 口袋 掏 出 一 盒 火 柴 点 香烟 (从 左右 两 个 口 狼 
中 掏 火 柴 盒 的 概率 分 别 为 1/2), 而 各 次 掏 火柴 的 习惯 是 相互 独立 的 . 假定 开始 的 时 候 , 两 
个 口袋 的 火柴 盒 里 的 火柴 数目 是 相等 的 , 都 等 于 n. 当 这 位 数学 家 从 口袋 里 掏 出 来 的 火柴 
盒 是 一 个 空 盒 时 , 另 一 个 口 伐 的 火柴 盒 中 的 火柴 根 数 的 分 布 列 是 什么 ? 现在 将 上 述 问题 
稍 作 推广 , 设 数 学 家 在 掏 火 柴 盒 的 时 候 ， 从 左 口 袋 掏 火柴 盒 的 概率 为 p, 从 右 口袋 掏 的 概 
率 为 1 一 p, 那么 相应 的 结论 是 什么 ? 
解 ” 令 久 是 一 个 火柴 盒 为 空 的 时 候 另 一 个 火柴 盒 中 火柴 的 根 数 . 对 于 有 = 0,1,… ,n， 
记 Lk(Rk) 分 别 为 这 样 的 随机 事件 : 当 第 一 次 发 现 一 个 火柴 盒 为 空 火 柴 盒 的 时 候 ， 这 个 
火柴 盒 是 左 ( 右 ) 口袋 里 的 火柴 盒 , 并 且 右 ( 左 ) 火柴 盒 里 剩 下 有 根 火柴 . X 的 分 布 列 为 


px(k) =P(L) +P(RE), k=0,1,...,n. 
我 们 将 选 左 口袋 看 成 一 次 成 功 , 选 右 口 伐 看 成 一 次 失败 . 则 zx 是 这 样 的 事件 : 前 2n 一 


px(k+1)= -px(k), k=0,1,...,n—1. 


© 


习 题 107 


次 试验 中 成 功 了 n 次 , 在 2n 一 上 十 1 次 试验 的 时 候 也 是 成 功 . 这 样 


1/2n—k 1\2"* 
二 一 一 一 1 es » 
P(Lx) 2 no ) (3) 3 k 0, ? ) 他 


利用 对 称 性 , P(L%) = P(R%), 可 得 


2n—k 
px(k) =P(Ls) +P(R:) = (0 " (3) k=0,l. nm. 


对 于 稍 作 推 广 的 问题 , 即 从 左 口袋 取 火 柴 的 概率 为 p, 从 右 口袋 取 火 柴 的 概率 为 1 一 p， 
利用 相似 的 推论 得 到 


2n—k\ , n— 
Pw) =#( 线 ): (1 —p) * k=0,1,...,n, 


Pp) = 00 (7 en" k=0,1,.. sn. 
这 样 
px -P+ PB) = (7 ) CD), 
k=0,1,...,n. 
12.* 泊 松 通 近 公式 的 证 明 . 考虑 二 项 随机 变量 的 分 布 列 , 其 相应 的 参数 为 n 和 p. 证 明 当 
nco， p 一 0 


并 且 np 保持 为 固定 的 常数 和 的 时 候 , 这 个 二 项 分 布 列 趋 于 参数 为 和 的 泊 松 分 布 列 . 
解 利用 关系 式 


px (k) = mm -Dr 


_ nn) mn-k+tl) ] 2 mA 
加 nk kl \ nn . 
固定 k, 令 n 一 co, 我 们 得 到 
nk+ti ,1 Q-2) = (1-2) = 
n ’ n ’ nN ， 


_AAXAE 
Dx(K) 一 e “ 宙 ， 
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2.3 节 ”随机 变量 的 函数 


13. 一 对 夫妇 有 5 个 孩子 , 他 们 又 另外 收养 了 2 个 女孩 , 组 成 一 个 家 庭 . 他 们 亲生 的 5 个 孩 
子 中 , 每 个 孩子 为 男孩 或 女孩 均 是 1/2 的 概率 , 彼此 相互 独立 . 写 出 这 个 家 庭 中 女孩 数 的 
分 布 列 . 

14. 设 X 是 一 个 随机 变量 , 取 值 于 集合 {0, 1,…… ,9}, 取 每 个 值 的 概率 为 1/10. 
(a) 求 出 Y= mod (3) 的 分 布 列 . 
(b) 求 出 Y=5 mod (XX 十 1) 的 分 布 列 . 

15. 设 K 是 一 个 随机 变量 , 取 值 于 [一 n,n] 中 的 整数 ， 取 每 个 值 的 概率 为 1/(2n + 1). 求 
Y = In(X) 的 分 布 列 , 其 中 X=al*l, 而 a 是 一 个 正 数 . 


2.4 节 ”期 望 、 均值 和 方差 
16. 设 X 是 一 个 随机 变量 , 其 分 布 列 为 


Zz2/a， 车 z= 一 3, 一 2, 一 1,0,1,2,3, 
px(z) = 
0, 其 他 . 


(a) 求 出 c 和 E[X]. 
(b) 随机 变量 Z = (X 一 E[X])? 的 分 布 列 是 什么 ? 
(c) 利用 (pb) 的 结果 , 计算 多 的 方差 . 
(d) 利用 公式 var(X) = (2 一 BIX])? px(z), 计算 X 的 方差. 
17. 可 将 一 个 城市 的 温度 看 成 一 个 随机 变量 , 其 均值 为 10°C, 标准 差 也 是 10°C. 如 果 某 一 天 
的 温度 在 均值 的 一 个 标准 差 的 范围 内 变化 , 则 称 这 一 天 的 温度 是 正常 的 . 现在 如 果 温 度 
用 °F 来 表示 , 正常 天 气 的 温度 范围 应 该 怎么 表达 ? 
18. 设 a 和 5 是 两 个 正 整数 ,满足 条 件 a < 5 . 令 X 是 一 个 随机 变量 ， 以 相等 的 概率 取 
2i,a < i <b. 求 久 的 期 望 和 方差 . 
19. 10 个 盒子 中 的 某 一 个 放 有 奖品 . 为 确定 起 见 , 将 这 10 个 盒子 编 上 号 , 由 1 号 到 10 号 . 用 
问 问题 和 回答 问题 的 方法 可 以 逐步 将 奖品 所 在 的 位 置 确定 下 来 ， 下 面 是 两 种 问 问题 的 方 
法 : 
(a) 枚 举 法 . 用 这 样 的 问题 问 : “奖品 是 不 是 在 盒子 & 中 ?” 
(b) 二 分 法 . 用 排除 法 把 将 近 一 半 的 盒子 淘汰 , 例如 可 用 这 样 的 问题 进行 排除 : “奖品 所 
在 的 盒子 的 号 码 是 不 是 小 于 或 等 于 k?” 
解 分 别 在 两 种 方法 之 下 计算 问 问题 次 数 的 期 望 值 . 
(a) 不 妨 设 问题 是 这 样 问 的 : 第 i 个 问题 是 “奖品 是 不 是 在 盒子 i 中 ?”, 而 奖品 是 以 
1/10 的 概率 在 盒子 i 中 . 故 问 i 个 问题 才 猜 中 奖品 的 概率 为 1/10. 这 样 平均 猜 中 
奖品 的 次 数 为 


1 1 
062i 0 55=5.5. 
(b) 假定 第 1 个 问题 是 : “奖品 所 在 的 盒子 是 否 满足 上 < 5?” 若 回答 为 “是 ”, 则 第 二 


个 问题 为 “奖品 所 在 的 盒子 k 是 否 满足 k < 2?” 若 回答 为 “是 ”, 则 奖品 就 在 “1， 
2” 之 内 . 再 问 一 个 问题 :“ 奖 品 所 在 的 盒子 上 是 否 满足 k < 1?” 就 可 以 确定 这 个 奖 


20. 


21. 


22. 


23. 
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品 了 . 这 样 , 若 奖 品 在 盒子 “1? 或 “2” 内 , 只 需 问 3 个 问题 即 可 确定 奖品 的 位 置 . 利 
用 这 种 方法 可 知 , 一 共有 6 种 位 置 , 需要 问 三 个 问题 才能 确定 其 位 置 , 另外 有 4 种 
位 置 , 需要 问 4 个 问题 才能 确定 下 来 . 而 奖品 在 每 一 种 位 置 的 概率 为 1/10. 这 样 要 
确定 奖品 的 位 置 , 需要 问 问题 的 平均 个 数 为 
4 6 
54+0'3=3.4. 
巧克力 工厂 开展 了 一 个 宣传 活动 , 在 一 些 巧克力 糖 中 放 了 金奖 券 , 凭 这 个 奖券 可 以 到 工厂 
参观 并 可 随意 品尝 各 种 巧克力 .假定 一 包 巧 克 力 糖 内 含 金 奖券 的 概率 为 p. 求 出 为 拿 到 
金奖 券 所 需要 购买 的 巧克力 糖 的 包 数 的 均值 和 方差 . 
圣彼得堡 悖 论 ， 抛 锤 一 枚 均匀 的 硬币 , 直到 出 现 反 面向 上 为 止 . 假定 每 次 抛 丘 是 独立 的 . 
车 你 抛 找 了 x 次 , 你 可 以 获得 2* 元 . 你 得 到 的 钱 数 的 期 望 值 是 多 少 ? 你 愿意 付 多 少 钱 玩 
这 个 游戏 呢 ? 
有 两 枚 硬币 , 将 它们 同时 抛掷 的 时 候 , 其 中 第 一 枚 正面 向 上 的 概率 为 p, 第 二 枚 正面 向 上 
的 概率 为 9. 连续 地 同时 抛掷 这 两 枚 硬币 , 直到 出 现 一 枚 向 上 , 另 一 枚 向 下 为 止 假定 所 
有 的 抛 撕 是 相互 独立 的 . 
(a) 写 出 抛 扼 次 数 的 分 布 列 、 期 望 值 和 方差 . 
(b) 最 后 一 次 抛 排 得 到 第 一 枚 硬币 正面 向 上 的 概率 有 多 大 ? 
(a) 连续 抛 掀 一 枚 均匀 的 硬币 , 直到 连续 出 现 两 次 正面 向 上 或 反面 向 上 为 止 . 写 出 抛掷 
次 数 的 分 布 列 、 期 望 值 和 方差 . 
(b) 现在 假定 连续 抛掷 一 枚 均匀 的 硬币 , 直到 出 现 正面 向 上 , 紧 接 着 出 现 反面 向 上 为 止 . 
写 出 抛 搓 次 数 的 分 布 列 、 期 望 值 和 方差. 


2.5 节 ”多 个 随机 变量 的 联合 分 布 列 


24. 


25. 


26. 


某 股票 经 纪 人 买 了 甲 股 票 200 股 , 乙 股票 100 股 . 令 X 和 了 分 别 为 甲 、 乙 两 个 股票 在 
某 一 时 期 的 价格 变动 . 假定 X 和 了 的 联合 分 布 列 为 二 元 集合 


一 2 乏 2 乏 4， 一 1 乏 y 一 2 所 1 


中 的 整数 格 点 上 的 均匀 分 布 . 

(a) 写 出 X 和 Y 的 边缘 分 布 列 和 均值 . 

(b) 写 出 经 纪 人 的 平均 利润 . 

某 一 班 上 有 mn 个 学 生 参 加 一 个 测验 , 测验 共有 m 道 题目 . 假定 学 生 i 上 交 了 前 mi 道 题 

目的 答案 , i = 1,… ,n. 

(a) 教师 随机 地 从 这 些 答案 中 选 出 一 份 答案 ,， 记 作 7,J， 其 中 为 学 生 的 号 码 (I < 
{1,… ,mn}), 7 为 题目 的 号 码 ， 假 定 所 有 的 答案 是 以 相等 的 可 能 性 被 选中 的 ， 计 
算 工 和 J 的 联合 分 布 列 和 边缘 分 布 列 . 

(b) 假定 学 生 i 对 ; 道 题目 能 够 正确 回答 的 概率 为 p;,;. 同时 假定 一 道 题目 回答 正确 可 
以 得 a 分 , 否则 得 b 分 . 计算 学 生 i 所 得 的 总 分 的 期 望 值 . 

几 个 随机 变量 的 最 小 值 的 分 布 列 . 你 的 高 尔 夫 成 绩 是 一 个 随机 变量 ,其 得 分 的 分 布 是 

{101,.… ,110} 上 的 均匀 分 布 . 为 了 改进 成 绩 ， 你 决定 将 3 天 的 最 小 分 数 作为 你 的 分 数 

X, 即 XX 等 于 min{X1, XX2, Xs}, 其 中 Xi;,i = 1,2,3 表示 你 三 天 的 分 数 . 
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(a) 计算 X 的 分 布 列 . 

(b) 若 以 XX 作为 你 的 得 分 , 你 的 平均 得 分 比 原 来 的 以 一 天 的 成 绩 作 为 记分 的 平均 得 分 
改进 了 多 少 ? 

多 项 分 布 ， 设 有 一 个 般 子 , 具有 7 条 边 , 标记 为 1,.…… ,7. 将 货 子 连 续 转动 ”次 . 假定 在 

每 次 转动 的 时 候 第 i 面 出 现 的 概率 为 p;, 并 且 各 次 转动 是 相互 独立 的 . 记 Xi; 为 n 次 转 

动 中 , 第 i 面 出 现 的 次 数 . 

(a) 写 出 Xi …… ,Xr 的 联合 分 布 列 px ,x (k1,:… ,kr). 

(b) 写 出 X; 的 期 望 与 方差. 

(e) 求 ELXX5]1G 夭 力 . 

解 

(a) 设 关于 n 次 转动 后 得 到 一 个 转动 结果 序列 (试验 结果 ), 这 个 序列 中 第 i 面 出 现 名 
次 , i = 1,… ,7， 这 个 转动 结果 序列 出 现 的 概率 为 p?: .…pgr. 以 后 ,… ,kr 为 特 
征 的 试验 结果 形成 一 个 集合 (事件 ), 这 个 事件 中 的 试验 结果 的 个 数 为 多 项 系数 ( 见 


1.6 节 ) 
n nl! 
人 轩 kl kn! 


n 
DX1,. ,Xr (kK1, + , kr) 一 ( 。 区 pe", 
， ， 


其 中 局 > 0,1 = 1,… ,7, hi 十 … 十 kr 二 nn, 在 其 他 情况 px ,x (ki,:… ,kx) = 0. 

(b) 随机 变量 X 是 一 个 二 项 随机 变量 ， 相 应 的 参数 为 n 和 p;， 这 样 E[Xi] = mpi 
var(Xi) = npi(l — pi). 

(ce) 设 i 关 jj 记 ,xs( 或 ,x) 为 伯 努 利 随机 变量 , 当 第 上 次 转动 般 子 的 时 候 出 现 i( 或 
9) 就 取 值 1, 否则 取 值 0. 注意 ,We 三 0 以 及 对 于 1 关上 ,Ys 和 Yt 相互 独立 
(因此 E[Y,kYx] = pip;), 我 们 得 到 

E[XiX;] = E[(Yi + + Vn) (Yi + + Yn)] 
= n(n — 1)E[Y,1Y,2] 


这 样 ， 


= n(n — 1)pipy. 


智力 测验 问题 。 智力 测验 答题 的 规则 是 这 样 确定 的 . 一 共有 x 个 问题 , 你 可 以 选择 任意 

的 回答 次 序 . 对 于 问题 i, 你 正确 回答 的 概率 为 p;. 若 你 回答 正确 , 就 可 以 拿 到 奖金 v;, 并 

且 有 权利 选择 下 一 个 问题 回答 . 你 第 一 次 回答 错误 后 , 你 不 但 得 不 到 这 个 问题 的 奖金 , 而 

且 失 去 了 继续 回答 问题 的 权利 , 但 可 以 保留 以 前 得 到 的 奖金 总 额 . 为 了 达到 最 大 的 期 望 总 

奖金 , 证 明 你 应 该 按 piwi/(1 一 pi) 的 非 增 的 次 序 选择 你 所 要 回答 的 问题 , 即 piwi/(1 一 pi) 

大 的 问题 优先 回答 . 

解 ”将 问题 {1,2,.… ,n} 的 回答 顺序 抽象 化 成 为 这 些 问题 的 一 个 排列 工 = (i,i2,… ,in). 
首先 回答 的 问题 是 记 , 其 次 是 i。…. 所 谓 最 优 排列 是 指 按 最 优 排列 顺序 回答 问题 能 获 

得 最 大 的 期 望 总 奖金 . 记 


29. 
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为 问题 i 的 权 值 . 我 们 称 排列 工 = (i1,i2,… ,in) 中 相 邻 的 “问题 对 ”( 读 ,ip+1) 为 “逆序 
对 ”, 如 它们 满足 条 件 

wig) < Wipt1). 
为 了 消除 这 个 逆序 对 , 只 须 将 排列 工 中 的 i 与 多 + 的 位 置 对 调 , 即 变 成 L' = (i1,i2,:…， 
pl 名 + kip42， in)， 对 于 L'，(ip+1,ik) 就 不 是 逆序 对 了 ， 现 在 我 们 分 别 计算 工 
和 LL 的 期 望 总 奖金 : 


E[L 的 总 奖金 ] = piloil 十 pispizViz 十 … 十 pispis DinVin; 
EIL 的 总 奖金 | =pivdi 十 十 Di Pir_1Vig 1 十 Di “Pip_1PigtiVipt 
十 Di Di DikTIPDikUi TF Pir*** Pipt2Virt2 十 十 Di "Pin Vin: 
将 两 者 比较 得 
BE[Z 的 总 奖金 ] 一 E[L 的 总 奖金 ] = (w(ig+1) 一 让 (如 ))(pi pi 一 Pi) 一 par)) >0 


由 此 可 以 看 出 , 对 于 有 逆序 对 的 排列 L, 不 可 能 达到 最 高 的 期 望 总 奖金 . 
现在 , 最 优 排列 只 能 在 没有 逆序 对 的 排列 中 找 . 而 没有 逆序 对 的 排列 就 是 按 权 值 w(i) 

非 增 的 排列 . 我 们 利用 下 面 的 两 个 事实 : 

(a) 任意 两 个 按 权 值 非 增 的 不 同 排列 5 和 一 , 可 以 通过 一 系列 的 改变 问题 对 (ix,ip+1) 
的 顺序 由 工 变 成 L', 而 每 次 改变 顺序 的 两 个 问题 (i,in+1) 的 权 值 是 相同 的 ， 即 
Ww(ikp) = 也 (让 +1). 

(b) 由 于 改变 顺序 的 两 个 问题 的 权 值 相同 , 由 前 面 的 计算 知 , 改变 顺序 前 后 的 两 个 排列 
的 总 奖金 的 期 望 值 是 相同 的 . 

由 以 上 两 点 可 知 , 只 要 排列 是 按 权 值 w(i) 非 增 的 , 这 个 排列 就 是 最 优 的 排列 , 其 期 望 总 

奖金 达到 最 大 . 

容 斥 恒等式 ， 设 41, 42,… , An 为 n 个 事件 . 记 3 = 人 il <ign}), Sa = 1{(i,io)|1 < 

站 < 记 所 n), 更 一 般 地 , 令 Sm 为 满足 条 件 1 < < 记 <… <im < n 的 m 重 指 标 

全 im 的 集合 . 证 明 下 列 容 斥 恒等式 成 立 : 


P(URAR)= DD P(A)— >》 P(AiN Ai) 
i€ES1 (i1,i2)ES? 
+ 2 PUian4an4a)-…+(-D" P(N.A.). 
(i1,i2,i3)ESS 

提示 : ” 设 Xi 为 事件 4; 的 示 性 函数 , 即 当 事件 4; 发 生 的 时 候 , XX; 取 值 为 1, 当 事 件 4; 
不 发 生 的 时 候 , X; 取 值 为 0. 将 随机 变量 1 一 (1 一 Xi1)(1 一 Xz2)… (1 一 XX,) 与 相关 的 事 
件 联系 起 来 . | 
解 ”我 们 将 事件 B = UR_:4x 与 随机 变量 Xi,… , Xn 联系 起 来 . 事件 B° 发 生 等 价 于 
所 有 的 变量 X1,…… , Xn 取 值 为 0, 或 等 价 于 条 件 YY = (1 一 Xi)(1 一 X2)… (1 一 Xn)=1. 
由 于 Y 只 能 取 值 0 或 1, 我 们 有 


P(B°) = P(Y = 1) = E[Y]. 
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这 样 


P(B)=1-E[I ~ X1)(l — X22):…(1 — X,)| 


(i1,i2)ES2 


| 》， A 


注意 , X 与 A; 的 下 列 种 种 关系 式 


BLXi] = P(A;), 了 [Xi Xis] = P(Aii mn Ai,), 
也 [Xi Xi Xis] = P(Aii NM Ais N Ais), E[X1X2::. Xn] = P(NMNE=1Ax), 
就 可 以 得 到 容 斥 恒等式 . 


30.” 埃 温 的 数据 库 中 有 7” 个 记录 . 由 于 软件 的 故障 , 地 址 和 人 员 的 对 应 关系 处 于 完全 随机 的 
状态 . 埃 温 给 每 位 朋友 送 一 张 生日 卡 , 但 是 地 址 完全 乱 了 . 在 这 种 情况 下 , 至 少 有 一 位 朋 
友 得 到 他 本 人 的 卡 的 概率 有 多 大 ? 提示 : 利用 容 斥 恒等式 . 
解 ” 记 hx 为 第 k 张 卡 送 到 正确 的 地 址 . 我 们 有 下 列 一 系列 公式 


P(A4) = 1 (nC— 1)! 


n nl 


1 1 — 2)! 
P(A NA) = POA)P(AsNAR) = 元 FT 一 ° nl ~ 


— 1 
P(AsNAMA) -1 i 1 (0 


nn—-ln—-2 nl )! 
等 等 , 最 后 还 有 ] 
将 这 些 结果 代入 容 斥 恒等式 
P(URiAr)= P(A)— > P(AinN Ai) 
i€ES1 (i1,i2)ES2 
+ >》 Ph4an4an4a)-…+(-D?IP(nR A). 
(i1,i2,i3)E Ss 
得 到 
， — 1)! — 2)! — 3)! m1l1 
P(UR_1Ax) = 9 Cy 一 9 -2 十 四 外 中 一 …: 十 (- 了 1 1 
i 
当 n 很 大 的 时 候 , 这 个 概率 趋 近 于 1 - e-1. 
2.6 节 条件 


31， 独立 地 抛 括 一 个 6 面体 , 共 4 次 . 令 X 为 抛掷 得 到 1 点 的 次 数 , Y 为 2 点 的 次 数 . XX 和 
Y 的 联合 分 布 列 是 什么 ? 
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32，D. 伯 努 利 的 共同 生活 问题 . 设 有 m 对 夫妻 共同 生活 着 . 假定 若干 年 以 后 每 个 人 活着 的 
概率 为 p, 并 且 彼 此 相互 独立 . 记 4 为 若干 年 后 活着 的 人 数 , 5 为 若干 年 后 夫妻 都 活着 的 
对 数 . 对 任何 a, 求 E[S|4 = al. 

33.” 独 立地 抛掷 一 枚 硬币 若干 次 ， 每 次 抛掷 的 时 候 硬 币 正面 向 上 的 概率 为 p. 我 们 假定 , 当 

连续 出 现 两 次 正面 向 上 或 连续 出 现 两 次 反面 向 上 的 时 候 , 抛 手 就 停止 . 写 出 抛 抑 次数 的 
期 望 值 . 

解 ”一 种 办 法 是 直接 计算 XX 的 分 布 列 , 其 中 X 就 是 抛 搁 硬 币 的 次 数 . 然后 再 计算 已 
的 期 望 值 . 然而 , 由 于 硬币 是 非 均匀 的 , 计算 XX 的 分 布 列 有 一 些 麻烦 . 我 们 利用 全 期 望 
公式 并 适当 地 分 割 样本 空间 的 方法 进行 计算 . 记 Hk( 或 你) 表示 第 上 次 抛掷 出 现 正面 
(或 反面 ) 的 事件 . 记 gq = 1 一 p 表示 抛 抑 硬 币 出 现 反 面 的 概率 . 由 于 到 和 全 形成 样本 
空间 的 一 个 分 割 且 P( 五 ) = p,P( 二 ) = gq, 利用 全 期 望 定理 得 


ELX] = pE[X|Hi] + gqE[XIT]. 
再 次 利用 全 期 望 定理 , 得 到 
E[X|Hi] = pE[X|IHi N H2] + gqELXIFi MN Ta] = 2p + gq(1 + EIX|T)), 
此 处 我 们 利用 了 两 个 公式 , 其 中 一 个 公式 是 
E[XIHi N Hz2] =2 
这 是 因为 两 次 出 现 正面 向 上 以 后 应 该 停止 抛 丘 . 另 一 个 公式 是 
ELX|IHiN T] = 1+ ELXIT), 


这 是 因为 , 车 抛 撕 没 有 结束 , 为 了 结束 抛掷 所 需要 抛 奖 硬币 的 平均 次 数 只 依赖 于 最 后 一 
次 的 抛 抑 的 结果 . 相似 的 分 析 可 得 


了 EX = 2g + p(1 + E[XIHI)), 


利用 所 得 到 的 两 个 关系 式 和 p + dg = 1, 可 解 得 


2 2 
EIXIT] = 2+? 

1—pg 

2 2 
EIXIH1] = 十， 

1— pg 

这 样 

国史 2 十 g2 2 十 2 


i-pa 1-pg 
利用 等 式 p 十 g = 1, 得 到 » 

BIX] = Ta. 
当 p=g==1/2 时 , E[X] = 3. 也 可 以 证 明 2 < E[X] < 3 对 一 切 p 成 立 . 
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34.” 一 个 蜂 蛛 在 一 条 直线 上 追 苍蝇 . 每 一 秒 钟 ,苍蝇 以 相等 的 概率 p 向 左 或 向 右 移动 一 步 ， 


以 概率 1 一 2p 在 原 处 不 动 . 而 蜘蛛 每 一 秒 钟 总 是 向 苍蝇 的 方向 移动 一 步 . 在 开始 的 时 候 ， 
苍蝇 与 几 蛛 相距 D 步 . 而 D 是 一 个 取 值 为 正 整数 的 随机 变量 , DD 的 分 布 列 为 已 知 如 
果 蜂 蛛 与 苍蝇 的 位 置 相 重合 , 苍蝇 就 被 捉 住 . 现在 的 问题 是 苍蝇 被 蜂 蛛 捉 住 的 期 望 时 间 
是 什么 ? 
解 ” 记 了 为 蜘蛛 捉 住 苍蝇 的 时 刻 . 定义 
4a : 开始 的 时 候 旷 蛛 和 苍蝇 的 距离 为 a 步 ， 
Ba : 开始 一 秒 后 蜂 蛛 和 苍蝇 的 距离 为 d 步 . 

显然 4e 和 Ba 都 是 随机 事件 . 我 们 的 步骤 是 首先 利用 (条 件 的 ) 全 期 望 定 理 计 算 
EIT|A1], 然后 计算 E[T|42], 相似 序 贯 地 计算 BIT|Aa]. 最 后 我 们 利用 无 条 件 的 全 期 望 
定理 计算 E[T]. 

我 们 有 

4z=(4anBoju(4on5oi)U(4anBo a)， 若 d>1. 


上 式 说 明 这 样 的 一 个 事实 : 开始 的 时 候 , 苍蝇 与 师 蛛 距离 为 d,d > 1, 那么 1 秒 钟 后 它 
们 的 距离 为 a ( 如 果 苍 蝇 离 开 蜘蛛 ) 或 d 一 1 ( 如 果 苍 蝇 保 持 不 动 ) 或 d 一 2 ( 如 果 
苍蝇 向 旷 蛛 方向 移动 ). 当 巷 蝇 与 蜂 蛛 距离 为 1 的 时 候 ， 


Ai = (A1NM Bi)U (AN Bo). 
利用 全 期 望 定理 , 我 们 得 到 
E[T|Aa] = P(Ba|Aa)E[T|Aa nN Bal 
+P(Ba_1|Aa)E[T|Aa N Bo_i] 
+P(Ba_2|Aa)E[T|Asn Ba_2]|， 若 d>1， 


EIT|IA1] = P(B1|A1)EIT|IA1N Bi]+P(BoAI)EITIAIN Bo 车 d=1. 
根据 问题 中 提供 的 数据 , 我 们 有 
P(B1|A1) = 2p, P(Bo|A1) = 1 — 2p, 
EIT|A1N Bi] = 1+EIT|Ai), EIT|A1N Bo] = 1, 
因此 利用 这 些 数据 , 可 以 得 到 
E[T|A1] = 2p(1 + E[T|A1]) + (1 ~ 2p)， 
或 


1 


BTA = 了 一 二 


将 这 些 数据 应 用 到 d = 2 的 情况 , 得 到 


E[T|A;2] 二 pE[T|A> 门 B2] 十 (1 一 2p)E[T|A> 门 五 1] +pE[IT|A2 门 Bol. 
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同时 我 们 有 


EIT|A2 N Bol = 1, 
E[T|A2 N Bi| = 1+ EITIAi), 
EIT|A2 m B2] = 1 + EIT|A2), 


将 这 些 量 代 入 E[T|42] 的 表达 式 中 , 得 到 
E[T|A2] = p(1 + E[T|A2]) + (1— 2p)(1 + EIT|A1])+p 
= p(l + EIT|A2]) + (1 — 2p) @ 十 二 十 2. 


上 式 经 过 整理 得 到 2 
EIrl4a] = 1 


1 
对 于 一 般 的 d, 我 们 可 以 得 到 
EIT|Aa] = p(1 + E[T|Aa]) + (1 — 2p)(1 + E[T|Aa_1]) + p(1 + EIT|Aa_2]). 


由 于 E[T|A1] 和 E[T|A2] 已 经 求 得 , 利用 上 式 可 以 递 推 地 将 一 切 EIT|A4] 求 得 . 最 后 ， 
给 定 DD 的 分 布 列 , 利用 全 期 望 公式 可 以 求 得 了 的 期 望 值 ; 


E[T] = 2 pp(d)E[T|Aal. 
35.” 利 用 单个 随机 变量 的 函数 的 期 望 值 规则 验证 下 面 的 期 望 值 规则 : 
Elg(X,Y)] = > D9(z,Y)px,r (2,Y). 
然后 再 将 所 得 到 的 期 望 值 规则 应 用 到 线性 函数 的 特殊 情况 , 得 到 公式 


ElaX + bY] = aE[X] + bE[Y], 


其 中 a 和 5 是 常数 . 
解 ”我 们 利用 全 期 望 定理 将 问题 归结 为 单个 随机 变量 的 函数 的 期 望 规则 


Elg(X,Y)] = > pr (YE [9(X, Y)Y = 避 
= yp [g(X, IY = 
= 3 py (y) 2 g(z, ypxIY (ZIy) 
= 3 > g(7,Y)px,Y (2,Y). 


注意 , 在 上 式 的 第 3 个 等 式 用 到 了 关于 单个 随机 变量 X 的 函数 g(X,y) 的 期 望 值 规则 . 
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对 于 线性 函数 , 由 期 望 值 规则 得 到 
ElaX +bY] = >》 》 (az + by)px,r (2,Y) 


=ad 2 pxr(zy) + YY px,y(z,Y) 
=a) zpx(z) + by ,ypr(y) 


= oaE[X] + bE[Y]. 
36.” 条 件 分 布 列 的 乘法 规则 ， 设 X,Y 2 为 随机 变量 . 
(a) 证 明 
PX,Y,2(7,Yy,2) = px(T)pYIx (YE)PzIx,Y (Ir, Y). 
(b) 将 此 公式 解释 成 1.3 节 的 乘法 规则 的 特殊 情况 . 
(c) 将 乘法 规则 推广 到 多 个 随机 变量 的 情况 . 
解 
(a) 我 们 有 
DPX,Y,2(T,Yy,z) = P(X=7,Y =Yy,2Z = 2) 

=P(X=z)P(Y =y,2=z|X = 7) 

=P(X=27)P(Y =yX=72)P(Z=z|X =7,Y = Yy) 

一 DX(Z)Ppylx(ylz)jpzlxyr(zlz2)， 
(b) 将 公式 写成 

P(X=7,Y=Yy,Z2=2z)=P(X=27)P(Y =yX=7r)P(Z=zX=7,Y = 切 
的 形式 , 化 成 了 1.3 节 中 的 乘法 规则 . 
(c) 推广 的 形式 是 
有 PXT ,Xn (z1， "0 , Tn) 
= pxi (TZ1)Ppxalxi (L271) PX | Xi Xn Tnlr1, ,Tn1). 

泊 松 随机 变量 的 分 解 ， 传 送 器 发 出 的 信号 是 一 个 0-1 信号 . 发 1 的 概率 为 p, 发 0 的 梳 
率 为 1 - D, 并 且 和 以 前 所 发 的 信号 独立 . 现在 假定 在 一 定时 间 内 发 出 信和 号 的 个 数 为 泊 
松 随 机 变量 , 其 参数 为 . 证 明 在 同一 段 时 间 内 发 出 1 的 个 数 也 是 泊 松 随机 变量 , 其 参 
数 为 pA. 
解 设 X 和 YY 分 别 为 同一 段 时 间 内 发 出 的 信号 1 和 0 的 个 数 . 那么 Z = 二 针 十 Y 就 
是 这 一 段 时 间 内 发 出 信号 的 个 数 . 利用 条 件 概率 公式 , 我 们 有 


P(X=nY=m)=P(X=n,Y =mlZ=n+m)P(Z =n+m) 


nm\ ;, m eA"tm™ 
-( ) (1 —p)™ .3 


% 


37. 


n (n+m)! 


_e ?Op)"” eTPAU-p))™ 
nl! ml! 
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因此 
P(X=n)= YN P(X ny =m) 


ds SE) 


1 ! 
人 mo mm: 


一 e ?Op)” aNd) 
nl 
_e ?Op)" 


n! 


这 说 明 X 是 一 个 泊 松 随机 变量 , 参数 为 Xp. 


2.7 节 ”独立 性 


38. 


39. 


40. 


41. 


42. 


爱丽 丝 在 上 班 路 上 要 通过 4 个 路 口 , 每 一 个 路 口 以 相等 的 概率 出 现 红 灯 或 绿灯 , 而 且 各 
个 路 口 的 红绿灯 的 出 现 是 相互 独立 的 . 
(a) 写 出 爱丽 丝 所 过 到 的 红 灯 数 目的 分 布 列 、 均值 和 方差 . 
(b) 假定 过 到 每 个 红 灯 会 等 待 2 分 钟 , 计算 爱丽 丝 在 上 班 路 上 花费 时 间 的 方差. 
每 天 早上 , 饥饿 的 哈雷 总 要 吃 几 个 鸡蛋 ， 候 定 哈雷 每 天 吃 鸡蛋 的 个 数 是 一 个 随机 变量 ， 
吃 掉 的 鸡蛋 个 数 是 1 到 6 个 不 等 , 而 且 在 {1,2, 3, 4, 5,6} 上 均匀 分 布 . 令 X 为 哈雷 10 
天 所 吃 掉 的 鸡蛋 数 . 求 X 的 均值 和 方差. 
一 个 教授 因为 他 的 任意 评分 办 法 而 知名 . 对 于 每 篇 论文 , 他 的 评分 是 在 集合 {4, 4-, B+， 
B, B 一 , C+} 上 等 概率 地 分 布 , 而 对 各 篇 论文 的 评分 是 相互 独立 的 ,为 了 使 得 每 种 评分 
等 级 至 少 对 应 一 篇 论文 , 你 大 概 需 要 交 多 少 篇 论文 ? 
你 开车 上 班 , 一 年 工作 50 周 , 每 周 工作 5 天 . 每 天 你 得 到 交通 罚单 的 概率 为 p = 0.02， 
而 且 各 天 之 间 是 否 得 到 罚单 是 相互 独立 的 , 记 X 为 你 一 年 中 得 到 的 罚单 数 . 
(a) 你 得 到 的 罚单 数 刚好 等 于 E[X] 的 概率 有 多 大 ? 
(b) 利用 泊 松 分 布 近似 地 计算 (a) 中 的 概率 . 
(c) 假定 每 张 罚 单 的 罚款 额 分 为 10 元 、 20 元 和 50 元 , 相应 的 概率 分 别 为 0.5, 0.3, 0.2， 
并 且 各 张 罚 单 的 罚款 额 之 间 是 相互 独立 的 ， 求 出 一 年 中 你 的 交通 罚款 总 额 的 均值 
和 方差. 
(d) 假定 你 不 知道 p 的 值 , 但 是 在 一 年 中 你 得 到 5 张 罚单 . 你 用 
五 一 5 一 0.02 
估计 p 的 值 . 假定 5 与 p 的 差 是 在 样本 平均 的 5 倍 标准 差 之 内 , p 的 变化 范围 是 
什么 ? 
计算 问题 ， 此 处 讨论 的 问题 是 计算 单位 正方 形 中 的 子 集 5 的 面积 的 方法 . 我 们 利用 单 
位 正方 形 上 服从 均匀 分 布 的 一 串 随机 的 点 列 . 如 果 第 i 个 点 是 在 集合 5 中 , 令 X; = 1， 
否则 为 0. 现在 设 X1,.… , X 是 这 样 生 成 的 随机 变量 序列 , 记 


一 六 1 十 … 十 Xn 
a ， 


Sn 
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43. 


44.” 


(a) 证 明 E[S,] 等 于 子 集合 5 的 面积 , 而 var(Sn) 当 n 无 限 增加 时 趋 于 0. 

(b) 证 明 为 了 计算 5 的 值 , 我们 可 以 利用 5S%_! 和 X 的 值 , 而 并 不 依赖 于 以 前 的 
XX1,… ,Xn_1. 写 出 一 个 公式 . 

(ce) 利用 计算 机 的 随机 数 发 生 器 写 一 个 计算 机 程序 , 产生 数列 5%,n = 1,2,… ,10 000. 
其 中 S 是 单位 正方 形 的 内 切 圆 . 怎样 利用 你 的 程序 去 近似 x 的 值 ? 

(d) 利用 类 似 的 计算 机 程序 去 近似 地 计算 单位 正方 形 内 由 条 件 0 < cosnx 十 sinny < 1 
所 确定 的 点 集 的 面积 . 

设 了 和 YY 是 两 个 相互 独立 且 具 有 相同 分 布 的 几何 随机 变量 ,其 参数 为 p. 证 明 

1 


P(X=iX+Y=7)= 1 


i=1,... ,nl 


解 ” 可 以 将 参数 为 p 的 几何 随机 变量 理解 为 连续 抛掷 一 枚 硬币 直到 正面 出 现 所 需 抛掷 
的 次 数 , 而 每 次 抛掷 时 正面 出 现 的 概率 为 p. 这 样 P(X = 让 X 十 = m) 可 以 解释 为 : 在 
抛 据 硬 币 的 序列 中 , 第 2 次 出 现 正面 所 需 抛 闫 次 数 为 n 的 条 件 下 , 第 1 次 出 现 正面 向 
上 的 时 刻 为 第 i 次 抛 据 的 概率 . 可 以 直观 地 解释 为 : 已 知 第 ”次 抛 丘 时 , 出 现 第 2 次 正 
面向 上 , 由 于 对 称 性 , 第 1 次 正面 出 现 的 抛 撕 时 刻 是 等 概率 地 分 布 在 第 1 次 到 第 n 一 1 
次 抛 卷 上 . 现在 形式 地 证 明 这 个 事实 . 首先 , 我 们 有 


PX iX HY EN) PKLX+Y=n) _ P(X =i)P(Y =n-)) 


P(X+Y =n) P(X+Y =n) 
同时 
P(X=i)=p1—p)" ,i>l, 
P(Y =n-d)=p(1-p)" "!, ni>l, 
这 样 


p11 一 p)"”?， 若 i 二 1,…,n 一 1 

0， 其 他 . 

由 此 可 知 , 对 于 [1,n 一 1] 中 的 任何 i 和 j, 均 有 
P(X=iX+Y=n)=P(X=jX+Y =n). 


| 


从 而 


P(X =ilX +Y =n) = 1 二 1,.… ,nl1. 


设 和 Y 是 两 个 随机 变量 , 其 联合 分 布 列 已 知 . 又 设 g 和 分 别 为 和 关 和 YY 的 函数 . 
证 明 如 XX 和 YY 相互 独立 , 则 g(X) 和 h(Y) 也 相互 独立 . 
解 ” 令 U=g(X),V =h(YY). 我 们 有 


PUv (uv) = >», Px,Y (2, Y) 
{(z,y)|9(7)=u,h(Y)=v} 


= >», Px (x)pYr (y) 
{(z,9) g(x)=u,h(Y)=v} 
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= >》 px(z) >》 pr(y) 


{slg(z)=u} {ylh(Y)=v} 
=pvu (wu)pv (v), 
这 说 明 UV 和 VV 相互 独立 . 
45.” 方 差 的 极 值 ， 设 X1,…… ,Xn 为 独立 同 分 布 的 随机 变量 序列 ,XX = Xi 十.… 十 Xn. 
(a) 假定 X; 为 伯 努 利 随 机 变量 , 参数 为 pi;, 而 参数 序列 pl,… ,pn 满足 条 件 芝 ?_ pi = 
4 > 0. 证 明 X 的 方差 当 mi 全 等 于 ju/n 的 时 候 达 到 最 大 . 
(b) 假定 X; 为 几何 随机 变量 , 参数 为 pi, 而 参数 序列 p1,.… ,pn 满足 条 件 E[X] = 
K > 0. 证 明 X 的 方差 当 pi; 全 等 于 n/n 的 时 候 达 到 最 小 . [ 注意 , (a) 和 (b) 两 
部 分 具有 完全 不 同 的 特征 . ] 
解 
(a) 我 们 有 
var(X) = Dvar(Xi)= pill -pi) = 14— Dp?. 
i=1 i=1 i=1 


最 大 化 方差 的 问题 归结 为 最 小 化 沁 "_, p? 的 问题 . 由 下 面 的 恒等式 
Dp? = pi p/n)? + (njm)2 
z=1 《一 工 1 一 工 


可 知 1p? 在 pi = p/n,i = 1,… ,n 的 时 候 达到 最 小 . 
(b) 我 们 有 


和 
var(X) = > var(Xi) = > 2 

作 变 换 y; = 1/p; = ELXil. 这 样 约束 条 件 变 二 

Du 
在 此 约束 条 件 下 X 的 方差 达到 最 小 值 的 问题 变 成 最 小 化 

Du -了 = 2 —L 

的 问题 . 这 与 (a) 中 讨论 的 问题 是 一 样 的 ， 当 取 y; = p/n,i = 1,.… ,n 时 使 得 
var(X) 达到 最 小 值 , 即 p; = n/j6i 二 1,… ,n 时 使 得 var(X) 达到 最 小 . 


46.” 烤 和 不 确定 性 ， 设 X 是 一 个 随机 变量 , 它 的 取 值 范围 为 {x1,… ,zn}， 相应 的 取 值 概 
率 分 别 为 {p1,… ,pn}. XX 的 炳 定义 为 


H(X) = 一》 pilogp:. 
i=l 
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(这 个 问题 中 的 所 有 对 数 都 是 以 2 为 底 的 对 数 .) 炉 也 (X) 是 关于 随机 变量 X 取 值 不 确 
定性 的 度量 . 为 了 给 出 一 个 直观 的 印象 , 注意 到 五 (X) > 0, 并 且 当 X 的 取 值 趋 于 确定 
值 的 时 候 ( 即 X 取 某 个 值 的 概率 趋 于 1), 玉 (X) 的 值 趋 于 0( 这 是 由 于 当 ps 0 或 ps1 
时 , plogp ~ 0). 

闹 是 信息 论 的 基本 概念 , 它 最 时 由 香农 (Shannon) 提出 , 在 许多 专业 的 教材 中 均 有 
陈述 . 例如 , 设 有 一 个 随机 变量 XX, X 取 有 限 个 值 . 为 确定 X 的 值 , 通常 用 “是 非 题 ”的 
方法 逐步 确定 (比如 “XX 是 否 等 于 z1? ”或 “X 是 否 小 于 zs5? ”), 为 确定 X 的 值 所 需 
要 问 的 问题 数 的 平均 数 的 下 界 为 吾 (X). 进一步 , 设 为 了 使 一 组 独立 同 分 布 的 随机 变量 
的 值 所 需要 回答 问题 的 平均 数 为 k, 则 当 n 充分 大 的 时 候 , 可 以 使 k/n 与 吾 (X) 任意 
地 靠近 . 

(a) 证 明 如 果 q1,… ,gn 是 满足 ”9i = 1 的 一 组 非 负数 , 则 


H(X) < — > pr log gi, 


其 中 等 号 成 立 的 充 要 条 件 是 g; = Pi 对 一 切 i 成 立 . 作为 特别 情况 , 指出 H(X) < 
logn, 且 等 号 成 立 的 充 要 条 件 是 p; = 1/n 对 一 切 i 成立， 提示: 利用 不 等 式 
Ina < a 一 1 对 一 切 a > 0 成 立 , 并 且 只 有 当 a = 1 的 时 候 等 号 成 立 . 

(b) 设 X 和 Y 是 取 有 限 个 值 的 随机 变量 , 其 联合 分 布 列 为 px,y(z, 切 , 定义 


I(X,Y)= Dev or (PE 2 ) 


Dx(zZ)pr(y) 


证 明 I(X,Y) > 0, 并 且 I(X,Y) = 0 成 立 的 充 要 条 件 是 X 和 YY 相互 独立 . 


(c) 证 明 
I(X,Y)= H(X)+ H(Y) ~ H(X,Y), 
其 中 
H(X,Y) = -22 Y (x,Yy)logpx,Y (zx,Y), 
H(X)=— > px(z)logpx(z)， H(Y)= -Pr ) log py (y). 
(d) 证 明 
I(X,Y)= H(X)— H(XIY), 
其 中 


H(XIY) = 27) ) 2 pxiv (ely) log pxlY (x|Y)- 


[ 注意 : 可 以 认为 H(X|Y) 是 了 给 定 的 条 件 下 的 条 件 精 ， 即 给 定 二 之 下 
首先 对 区 的 条 件 分 布 求 米 ， 然 后 对 所 有 可 能 的 y 值 求 平均 ， 这 样 I(X,Y) = 
H(X) - HCXIY) 是 知道 Y 的 值 的 条 件 下 灶 (不 确定 性 ) 的 压缩 量 . I(X,Y) 也 可 
解释 为 X 中 包含 的 Y 的 那 一 部 分 的 信息 量 ， 因 此 也 成 为 X 和 Y 相互 包含 的 信 
息 量 . ] 
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解 
(a) 我 们 利用 不 等 式 ma < a 一 1( 对 于 o> 1 me=/ BB- ‘p<f dB = aw 一 1， 


对 于 0<aw<l,ina= 一 | 9a8<- [ 48=e-), 得 到 


-pnm+y png 一 yp (2 < yp (2 一 1) 一 0， 
i=1 i=1 i=1 Pi i=1 PD: 


2 


其 中 等 号 成 立 的 充 要 条 件 是 gq; = p; 对 一 切 i 成 立 ， 由 于 Inp = logpln2, 上面 
的 不 等 式 与 有 H(X) < 一 ?jpilog gq; 是 等 价 的 ， 若 令 gq; = 1/n,i = 1,.…,n, 
H(X) & — ii Pilog gi 变 成 H(X) & logn. 
(b) px(z)pr(y) 满足 条 件 一 。> ,px(z)pr(y) = 1. 利用 (a) 的 结论 , 得 到 

DD pxr(z,y) log (px,y (2,Y)) >》 px,Y(z,Y) log (px(z)py(y)), 

zr Y rz Yy 
其 中 等 号 成 立 的 充 要 条 件 是 

PX,Y (ZT,Y) 二 PX (ZT)py(y)， 对 一 切 z 和 y 成 立 ， 


或 等 价 地 X 和 YY 相互 独立 . 
(ce) 利用 了 和 五 之 定义 , 可 得 


= D2 pxr(z,g)logpxyr(z, 人 一》 > px,y (x,y) log (px (2)pY (y)), 
I yy T y 


DD jpxv (cy) logpx,r (zy) = —H(X,Y) 


I y 


-2 2 px Y (x,y) log(px (7)pYy (y)) -on Y (%,9) log px (7) 
一 Ze (zx,Y) log py (y) 
-pe (zx) log px (7)— 2 )logpy(y 


=H(X) + H(Y). 
由 这 3 个 公式 , 可 以 得 到 I(X,Y) = H(X) + H(Y) — H(X,Y). 
(d) 由 (e) 的 计算 , 可 得 到 


I(X,Y) = > px,r(2,Y) log(px,y (2,9)) — > px(z)logpx(z) 
一 > >》 pxy(z;y)logpy( 攻 


=H(X) + > 2pxr (zy)log (EL ) 


=H(X)+ >, >》 py (ypxlr (zly) logpxly (zly) 


I 2 


=H(X) — H(X|Y). 
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取 值 于 连续 区 域 的 随机 变量 是 十 分 普遍 的 . 在 高 速 公 路 上 汽车 的 速度 就 是 一 
个 例子 . 若 汽车 的 速度 可 从 速度 表 读 得 , 那么 我 们 可 将 速度 表 的 读数 看 成 离散 的 随 
机 变量 . 但 是 , 为 了 将 汽车 的 真实 速度 模型 化 , 连续 随机 变量 更 为 合适 ， 多 种 理由 
说 明 连 续 随机 变量 是 概率 论 中 非常 有 用 的 概念 . 除了 刻画 细致 和 精确 外 , 连续 随机 
变量 可 以 利用 有 力 的 分 析 工 具 解 决 概率 的 计算 问题 . 更 主要 的 是 , 连续 随机 变量 还 
可 以 刻画 某 些 随机 现象 的 本 质 , 而 单纯 靠 离散 随机 变量 , 这 是 无 法 做 到 的 . 

所 有 在 第 2 章 中 讨论 的 概念 , 例如 期 望 、 分 布 列 和 条 件 等 都 有 对 应 的 概念 . 本 
章 的 任务 就 是 将 第 2 章 中 的 概念 在 连续 随机 变量 的 情况 下 重新 解释 . 


3.1 ”连续 随机 变量 和 概率 密度 函数 
对 于 随机 变量 X, 若 存 在 一 个 非 负 函数 fx, 使 得 
P(X €B)= | fae 
对 每 一 个 实数 轴 上 的 集合 B 都 成 立 9, 则 称 X 为 连续 的 随机 变量 , 函数 fx 就 称 
为 X 的 概率 密度 函数 , 或 简称 PDF. PDF 的 概念 与 离散 随机 变量 的 分 布 列 是 相对 
应 的 . 特别 , 当 B 是 一 个 区 间 的 时 候 


b 
pla<X<b)= / fx (x)dz, 


此 时 , 这 个 积分 可 以 理解 为 PDF 和 区 间 fw, 中 所 形成 的 曲 边 梯形 的 面积 ( 见 图 3.1) 
对 于 单 点 集合 a, 我 们 有 P(X = a) = / fx(z)dz = 0. 由 于 这 个 原因 , 区 间 的 端点 
对 于 概率 的 计算 不 起 作用 , 即 " 


Plag Xb)=Pla<X<b)=PaosX<D=Pa<X<b). 


@ 积分 人 fx (z)dz 可 以 理解 为 黎 曼 积分 ,我 们 假定 所 涉及 的 函数 是 黎 曼 可 积 的 ， 对 于 不 寻常 的 函 
数 或 集合 , 这 个 积分 可 能 是 无 法 定义 的 , 这 是 更 近代 的 数学 分 析 所 处 理 的 问题 . 我 们 通常 下 到 的 函 
数 是 具有 有 限 个 (或 可 数 个 ) 间断 点 的 逐 段 连续 函数 fx, 通常 的 积分 限 为 有 限 个 (或 可 数 个 ) 区 
间 的 和 . 这 些 情况 属于 黎 曼 积分 处 理 的 范围 


3.1 连续 随机 变量 和 概率 密度 函数 ”123 


一 个 函数 能 够 成 为 PDF, 它 必 须 是 非 负 的 , 即 fx(x) > 0 对 一 切 z 成 立 , 同时 
它 还 必须 满足 下 面 的 归 一 性 条 件 


广 jx(z)dz =P(-o0 <X < co)=1. 


从 图 像 上 看 , PDF 下 面 的 且 在 > 轴 上 面部 分 的 面积 必须 等 于 1. 


PDF fx(2) 


事件 {a X< 0} 
b 
图 3.1 PDF 的 解释 . X 取 值 于 fo 中 的 概率 是 / fx (zjdz, 这 个 积分 就 是 图 中 阴影 部 分 的 
面积 


也 可 以 对 PDF 作 这 样 的 解释 : 对 于 很 小 的 5, 我 们 有 
z+6 
P(lz,z 十 0]) = / fx(z)dz ~ fx(7) .0， 


这 样 , 我 们 可 以 理解 fx(z) 为 X 落 入 z 附近 的 单位 长 度 的 概率 ( 见 图 3.2). 由 于 
fx(z) 是 概率 律 , 不 是 某 一 事件 的 概率 , 故 fx(z) 可 以 大 于 1. 


PDF fx(2) 


T 7 十 0 
图 3.2 PDFfx(z) 作为 z 附近 的 概率 律 的 解释 设 5 很 小 , 在 图 中 X 取 值 于 [z,z+ 引 的 
概率 是 图 中 阴影 部 分 的 面积 , 它 近 似 地 等 于 fx(z) .6 


例 3.1 (连续 的 均匀 随机 变量 ) “一 个 赌 客 在 赠 场 转动 幸运 轮 , 幸运 轮 上 具有 连续 
的 刻度 , 从 0 到 1. 每 次 轮子 转动 停止 以 后 , 固定 的 指针 会 指向 轮子 上 的 一 个 数 . 假 
定 转 动 停止 以 后 , 指针 指向 幸运 轮 上 任意 两 个 长 度 相同 的 区 间 的 概率 是 相等 的 . 这 
样 的 随机 试验 可 用 一 个 随机 变量 X 来 刻画 , X 的 PDF 可 由 下 式 给 出 


c， 若 0g<zg1, 
fx(7) = 其 他 ， 
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此 处 常数 c 可 用 下 面 的 归 一 化 条 件 


1 xa sef we-。 
确定 , 即 c= 1. 


更 一 般 地 , 可 以 考虑 取 值 于 区 间 [ae, 上 的 随机 变量 . 我 们 假定 X 取 值 于 [a, 引 
的 任意 两 个 长 度 相同 的 子 区 间 的 概率 是 相同 的 ， 这 种 随机 变量 称 为 具有 均匀 分 布 
的 随机 变量 . 这 种 随机 变量 的 PDF 由 下 式 给 出 : 


1 
二 一 gr&b, 
PDF fx(7) jx(z) = | b—a’ oe ” 
0， 》 


( 见 图 3.3). fx(z) 在 [o, 忆 上 的 常数 (1/(5 -a)) 
可 从 下 面 的 归 一 化 条 件 得 到 : 
a b 全 


’ Oo b 1 
图 3.3 均匀 随机 变量 的 PDF 1= 人 _ rz)dz= 1 5 9 


例 3.2 ( 逐 段 常数 的 PDF) ” 艾 温 开车 上 班 . 在 天 气 晴 朗 的 日 子 , 大 约 需 要 驾驶 
15~20 分 钟 , 雨天 需要 20~25 分 钟 . 在 每 种 情况 下 , 驾驶 时 间 都 是 在 各 自 的 范围 内 
均匀 地 分 布 着 的 . 假定 晴天 的 可 能 性 为 2/3, 雨天 的 可 能 性 为 1/3. 车 把 艾 温 的 驾驶 
时 间 X 看 成 随机 变量 , 那么 X 的 PDF 是 什么 ? 

我 们 把 “驾驶 时 间 在 各 自 的 范围 内 均匀 地 分 布 ” 理解 为 X 的 PDF 在 各 自 的 
区 间 [15,20] 和 [20,25] 上 分 别 为 常数 . 由 于 这 两 个 区 间 包 含 所 有 可 能 的 驾驶 时 间 ， 
X 的 概率 密度 函数 在 其 他 范围 内 应 该 是 0. 这 样 


Cl1， 若 15 入 z< 20， 
jx(z) = C2, 车 20 < zx < 25, 
0， 其 他 ， 


此 处 cu 和 ca 是 常数 . 而 这 些 常数 可 从 雨天 和 晴天 的 概率 确定 . 
2 20 0 
= P( 畏 天 ) = 人 fx (x)dz =/ cadz = Sci, 


2 
15 


WIP | 


25 25 
二 P( 雨 天 ) = 人 fx(z)dz = 人 Cc2d7 = 5co2， 


由 此 得 到 
2 1 


一 15° C2 一 15° 
将 这 个 例子 进行 推广 , 考虑 X 的 下 列 形式 的 PDF 


C1 
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0， 其 他 ， 


其 中 ol < aa < … < an 是 常数 ,ci1,c2,… ,cn 是 一 组 非 负数 ( 见 图 3.4)， 常 数 
cl; ca,…… ,cn 可 以 像 前 面 那 样 , 由 一 组 条 件 确定 . 一 般 说 来 , 常数 ci 必须 满足 下 面 
的 归 一 化 条 件 : 


Qn 多 一 1 paiti n—l 
1= / fx(7)dz = 二 / cidz = 》 ci(oi+l 一 ai). 口 
2 i=1 “2 1 一 1 


Ci) 若 a; < x<aiyl) 1= 1,2,...,n—1, 
fx(z) = 


PDF fx(2) 


a th 人 Oo T 


图 3.4 含有 三 个 区 间 的 逐 段 常数 PDF 


例 3.3 (可 以 取 任 意 大 的 值 的 PDF) 考虑 X 的 下 列 PDF 
1 

xz) 一 42V7 

0， 其 他 . 
尽管 在 z 趋 于 0 的 时 候 jx(z) 的 值 可 以 任意 地 大 , fx (x) 仍然 是 一 个 合法 的 密度 


函数 . 这 是 因为 
oo 1 1 


关于 PDF 性 质 的 小 结 
设 六 的 PDF( 概 率 密度 函数 ) 为 fx(z). 
。 fx(Z) 之 0 对 一 切 z 成 立 . 


e 三 jx(z)dzr = 1. 


。 设 6 是 一 个 充分 小 的 正 数 , 则 P([z,z 十 9]) s fx(z) :5. 
。 对 任何 实数 轴 上 的 子 集 B， 


P(X €B)= | fx (oar. 


若 0<z<1, 


1 


二 1. 口 
0 
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3.1.1 期 望 
连续 随机 变量 X 的 期 望 或 均值 是 由 下 式 定义 的 : 


EI[X| = 广 ZJx(zZ)dz. 


连续 随机 变量 的 期 望 的 定义 与 离散 随机 变量 的 情况 完全 相似 , 只 须 将 定义 中 的 分 布 
列 置换 成 概率 密度 函数 (PDF), 求 和 置换 成 积分 .正如 第 2 章 , E[X] 可 以 解释 成 
PDF 的 重心 和 大 量 独立 重复 试验 中 X 的 取 值 的 平均 数 . 毕竟 , 积分 是 某 种 求 和 的 
极限 , 连续 情况 的 期 望 的 数学 性 质 与 离散 情况 是 极其 相似 的 . 

设 X 是 一 个 连续 随机 变量 , 其 PDF 为 fx(z), 则 XX 的 任意 函数 Y= g(X) 也 
是 一 个 随机 变量 . 注意 , Y 可 以 是 连续 随机 变量 , 例如 , 取 Y = g(X) = XX, 此 时 YY 
的 PDF 与 X 的 PDF 相同 . 但 是 Y 也 可 能 是 离散 随机 变量 , 例如 当 > > 0 时 , 令 
g(z) = 1, 否则 令 g(x) = 0. 此 时 , Y. 只 取 0 和 1, Y 是 一 个 离散 的 随机 变量 . 但 是 
无 论 是 离散 的 或 连续 的 结果 , 下 述 的 期 望 规则 总 是 成 立 的 : 


so(x)= 人 ~ g(a)fx(z)dz, 


( 见 本 章 末尾 的 习题 . ) 

随机 变量 X 的 n 阶 算 定 义 为 EIX9， 随机 变量 X 的 方差 定义 为 随机 变量 
(X 一 E[X])? 的 期 望 , 记 为 var(X). 

现在 我 们 将 随机 变量 的 性 质 列 成 下 表 , 这 些 性 质 与 离散 随机 变量 的 性 质 是 完全 
相同 的 . 


连续 随机 变量 的 期 望 的 性 质 
记 X 为 连续 随机 变量 , 其 相应 的 PDF( 概 率 密度 函数 ) 为 fx(z). 
。 六 的 期 望 由 下 式 定义 : 


EIX] = 人 zx(zjdz， 


@ 在 此 , 我 们 必须 关心 的 一 种 可 能 性 是 ， 积分 / ”zfx(z)dz 可 能 取 无 限 值 或 不 存在 ， 具 体 地 说 ， 
我 们 称 期 望 是 有 定义 的 ,是 指 / “|z|fx (z)dz < co, 此 时 积分 是 有 确切 定义 的 , 并 且 积 分 值 小 
于 无 鹤 . 
作为 期 望 没有 确切 定义 的 例子 , 考虑 X 的 PDF fx(z) 二 c/(1 十 zw2), 此 处 c 是 一 个 归 一 
化 常数 ， 函 数 |z|fx(z) 在 |z| 充分 大 的 时 候 可 用 cy/lz| 逼近 . 由 于 / (laydz 二 oo0, 可 知 
1 
广 (|zlfx(z))dz = oo. 这 样 , E[X] 是 没有 定义 的 , 尽管 X 的 PDF 相对 于 0 是 对 称 的 . 
本 书 中 , 如 无 特别 申明 , 总 是 假定 连续 随机 变量 X 的 期 望 是 有 定义 的 ， 
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。 关 于 随机 变量 9(X) 的 期 望 规则 为 
Blo(X)= 人 oo)7xtodz 
。X 的 方差 由 下 式 给 出 : 


oarCO = BIX ~ ED 和- | (eo ~ BIXD) x(n)de 


。 关于 方差 , 下 列 公式 成 立 : 
0 < var(X) = E[X?] — (E[X])?. 
。 设 Y 一 aX 十 6b, 其 中 a 和 4。 为 常数 , 则 


aE[X]+b, var(Y) = a2var(X). 


例 3.4 (均匀 随机 变量 的 均值 和 方差 ) ” 设 随 机 变量 X 的 分 布 为 [a,8] 上 的 均匀 分 
布 , 见 例 3.1. 我 们 有 


EIX] = 人 zx(adz 


这 个 期 望 值 刚好 等 于 PDF 的 对 称 中 心 时 2. 
为 求 得 方差 , 先 计 算 X 的 二 阶 甜 ， 
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b3 _ Q3 
30 二 qd 
_ otrabt+h 
3 
这 样 , X 的 方差 为 
var(X) ELIX (BX) = t+ to) _ Loo) 0 


3 4 12 
3.1.2 ”指数 随机 变量 
若 随机 变量 X 的 PDF 具有 下 列 形式 : 
Xe-xz， 若 zy>0， 
wa- 其 他 ， 


则 称 X 是 指数 随机 变量 , 其 中 和 是 分 布 的 参数 , > 0( 见 图 3.5). 这 个 函数 是 合法 
的 密度 函数 , 其 原因 是 


/ fx(zx)dz = [ Me *?dz = 一 ez 一 工 . 


注意 , 指数 分 布 具有 这 样 的 特性 : X 超过 某 个 值 的 概率 , 随 着 这 个 值 的 增加 而 按 指 
数 递减 , 即 对 于 任意 a > 0， 


P(X > a) = / Me ^zdz = -e-**|™ 一 ea. 


fx(D) fx(®) 


Tz 0 


3.5 ”指数 随机 变量 的 PDF Xe 


指数 随机 变量 具有 广泛 的 用 处 , 它 可 以 代表 到 发 生 某 个 事件 为 止 . 所 用 的 时 间 ， 
例如 , 这 个 事件 可 以 是 某 条 信息 到 达 计 算 机 、 一 台 仪 器 的 使 用 寿命 终止 、 一 个 灯泡 
用 坏 了 或 一 辆 汽车 出 一 次 车 祸 等 等 . 我 们 将 会 看 出 , 指数 随机 变量 与 离散 的 几何 随 
机 变量 十 分 相似 . 几何 随机 变量 也 与 某 一 个 我 们 感 兴趣 的 事件 发 生 的 (离散 ) 时 间 
相关 联 . 在 第 6 章 讨论 随机 过 程 时 , 指数 分 布 是 十 分 重要 的 工具 . 但 目前 , 我 们 将 
指数 分 布 作为 一 种 常见 的 分 布 处 理 . 

指数 随机 变量 的 均值 和 方差 由 下 列 公式 给 出 : 


EI[X|] = > var(X) = 十 
这 些 公式 可 以 直接 计算 得 到 . 利用 分 部 积分 法 ， 


再 次 利用 分 部 积分 法 , 可 得 到 X 的 二 阶 矩 ， 


E[X?2] = / zr2 Me dz 
0 


十 / 2re™ dz 
0 0 


和 2 

最 后 , 利用 公式 var(X) = E[X?] 一 (E[X])?, 得 到 
2 1 1 
xX XX 2 
例 3.5 “小 陨石 落 入 非洲 撒哈拉 沙漠 的 时 间 是 遵从 指数 族 分 布 的 . 具体 地 说 , 从 某 
一 观察 者 开始 观察 , 直到 发 现 一 颗 陨石 落 到 沙漠 , 这 个 时 间 的 分 布 是 指数 分 布 , 这 
个 时 间 的 平均 长 度 是 10 天 . 现在 假定 , 目前 时 间 为 晚上 12 点 整 . 问 在 第 二 天 早晨 
6:00 到 傍晚 6:00 之 间 陨 石 首次 落下 的 概率 有 多 大 ? 

假定 X 是 为 了 观察 陨石 落下 所 需要 的 等 待 时间 . 由 于 X 的 分 布 为 指数 分 布 ， 
均值 1/ 入 = 10, 由 此 知 入 = 1/10. 所 求 的 概率 为 


P(1/4< X <3/4)=P(X>1/4)— P(X >3/4)=e- 讽 一 e- 亢 二 0.0476, 
此 处 我 们 利用 了 公式 P(X > a) = P(X > a)=e-*. 口 


3.2 分 布 函 数 


我 们 分 别 用 分 布 列 (离散 情况 ) 和 概率 密度 函数 (连续 情况 ) 来 刻画 随机 变量 
X 的 取 值 规律 . 现在 我 们 希望 用 一 个 统一 的 数学 工具 去 刻画 随机 变量 的 取 值 规律 . 


var(X) 
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分 布 函 数 (用 记号 CDF 表示 简称 ) 就 能 完成 这 个 任务 . X 的 CDF 是 一 个 z 的 函 
数 , 对 每 一 个 z, Fx (zx) 定义 为 P(X < z). 特别 地 , 当 X 为 离散 或 连续 的 情况 下 ， 


2》_Ppx(k)， ”车 XX 离散 的 ， 


kz 


Fx(x)= P(X <7)= 了 
/ fx(tjdt， 车 X 连续 的 . 


分 布 函数 又 称 累 积分 布 函数 ,累积 意味 着 Fx (x) 将 X 取 值 的 概率 由 -oo 累计 到 
志 

在 一 个 概率 模型 中 , 随机 变量 可 以 有 不 同 的 类 型 , 可 以 是 离散 的 , 也 可 以 是 连 
续 的 , 甚至 可 以 是 既 非 离散 也 非 连续 的 . 但 不 管 是 什么 类 型 的 随机 变量 , 它们 有 一 
个 共同 的 特征 , 即 都 有 一 个 分 布 函数 , 这 是 因为 {X < xz} 是 一 个 随机 事件 , 这 些 事 
件 的 概率 形成 概率 分 布 . 今后 , 凡是 刻画 事件 {X < z} 的 概率 的 , 都 称 为 随机 变量 
X 的 概率 律 . 因此 离散 情况 下 的 分 布 列 , 连续 情况 下 的 概率 密度 函数 以 及 一 般 情 况 
下 的 分 布 函数 都 是 相应 的 随机 变量 的 概率 律 . 

图 3.6 和 图 3.7 分 别 给 离散 随机 变量 的 CDF 和 连续 随机 变量 的 CDF 一 些 说 
明 . 从 这 些 图 像 以 及 CDF 的 定义 , 可 以 得 到 CDF 的 某 些 一 般 的 性 质 . 


PMEF px(2) 


图 3.6 某 些 离散 随机 变量 的 CDF. 通过 随机 变量 的 分 布 列 , 可 求 得 相应 的 分 布 函数 : 
Fx(z)= P(X & 7)= >》 px(k). 
kr 


这 个 函数 是 一 个 阶梯 函数 , 在 具有 正 概率 的 那些 点 上 具有 跳跃 ， 在 跳跃 点 上 ，Fx (z) 
取 较 大 的 那个 值 , 即 Fx (z) 保持 右 连续 
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PDF fx(2) CDF Fx(2) 


图 3.7 某 些 连 续 随机 变量 的 CDF. 通过 随机 变量 的 密度 函数 , 可 求 得 相应 的 分 布 函数 ， 
Fx(7) = P(X < Z) = 人 jx (tdt. 


概率 密度 函数 fx (z) 可 由 CDF 经 微 商 得 到 


对 于 连续 随机 变量 , CDF 是 连续 的 


CDEF 的 性 质 

天 的 CDF Fx(z) 是 由 下 式 定 义 的 ， 

Fx(z)= P(X < 7), Vz, 

并 且 Fx(z) 具有 下 列 性 质 . 

。 Fx(z) 是 z 的 单调 非 减 函 数 : 

若 < y, 则 Fx(x) 和 Fx(y). 

当 z 一 -oo 的 时 候 , Fx(7x) 趋 于 0, 当 z 一 00 的 时 候 , Fx(z) 趋 于 1 
当 XX 是 离散 随机 变量 的 时 候 , Fx (zx) 为 阶梯 函数 . 
当 久 是 连续 随机 变量 的 时 候 , Fx(z) 为 x 的 连续 函数 . 


当 X 是 离散 随机 变量 并 且 取 整数 值 时 , 分 布 函 数 和 分 布 列 可 以 利用 求 和 
或 差分 互 求 : 


k 
Fx(k)= 》 px(i), 


1 一 一 co 


px(k) =P(X < -PX Sh-1)= Fx(k) — Fx(k— 1), 


其 中 有 可 以 是 任意 整数 . 
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。 当 XX 是 连续 随机 变量 的 时 候 , 分 布 函数 和 概率 密度 函数 可 以 利用 积分 或 


微分 互 求 : 
dFx 


x (7) = [ fx(t)dt, fx(7x)= = 7). 
(第 二 个 等 式 只 在 分 布 函 数 可 微 的 那些 点 上 成 立 . ) 


有 了 时候 , 为 了 计算 随机 变量 的 分 布 列 或 密度 函数 , 首先 计算 随机 变量 的 分 布 函 
数 会 更 方便 些 . 在 连续 随机 变量 的 情况 下 , 我 们 将 在 4.1 节 中 系统 地 介绍 用 该 方法 
求 随机 变量 的 函数 的 分 布 . 下 面 是 一 个 离散 随机 变量 的 计算 例子 . 
例 3.6 ( 几 个 随机 变量 的 最 大 值 ) ”你 参加 某 种 测试 , 按 规定 三 次 测试 的 最 高 成 绩 
作为 你 的 最 后 成 绩 . 设 
X = max{X1, X2, Xs}, 


其 中 Xi, XX, XX 是 三 次 测试 的 成 绩 , X 是 你 的 最 后 成 绩 . 假定 你 的 每 次 测试 成 绩 
是 1 分 到 10 分 之 间 , 并 且 P(X = = 1/10,i = 1 ,10. 现在 求 最 终 成 绩 X 的 
分 布 列 . 

我 们 采用 间接 方法 求 分 布 列 . 首先 计算 X 的 CDF, 然后 通过 


px(k) = Fx(k) ~ Fx(k— 1), i=1,... ,10, 
得 到 X 的 分 布 列 . 对 于 Fx(k), 我 们 有 


Fx(k) = P(X <&) 
=P(X1 < k, X2 < k, Xs < k) 
= P(X! < k)P(X2 < k)P(Xs < k) 


天 3 
-的 
此 处 第 三 个 等 式 是 由 事件 {Xi < k}, {Xz < 上}, {Xs < k} 相互 独立 所 致 . 这 样 X 的 
分 布 列 为 ， , 
px(k) = (二 ) 一 (5 ) ， 友 二 1,.…. ,10. 


本 例 的 方法 可 推广 到 ”个 随机 变量 Xi,… ,X 的 情况 . 如 果 对 每 一 个 zx, 事 
件 {Xi < x},… , {Xn < z} 相互 独立 , 则 和 = max{Xi,… ,Xn} 的 CDF 为 


F(z) = Fx (2): Fx, (x). 


利用 这 个 公式 , 在 离散 情况 下 通过 差分 可 得 到 px (x), 在 连续 情况 下 通过 微分 可 得 
到 jx(z). 
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几何 和 指数 随机 变量 的 分 布 函数 


由 于 分 布 函数 对 一 切 随机 变量 都 适用 , 我 们 可 以 利用 它 来 探讨 离散 和 连续 随机 
变量 之 间 的 关系 . 特别 地 , 此 处 讨论 几何 随机 变量 和 指数 随机 变量 之 间 的 关系 . 

设 X 是 一 个 几何 随机 变量 , 其 参数 为 p, 即 X 是 在 伯 努 利 独立 试验 序列 中 直 
到 第 一 次 成 功 所 需要 的 试验 次 数 , 而 伯 努 利 试验 的 参数 为 p. 这 样 对 于 = 1,2,…. ， 
我 们 有 P(X=k)=p(1 一 p)*-1, 而 六 的 CDF 为 


1— (1—p)" 
-> (1 — p)*-! = = 一 1 一 (1 一 on， 一 1),2,，…. 


现在 设 X 足 一 个 指数 随机 变量 其 参数 入 > 0. 其 CDF 是 
Fexp(Z) 王 P(X 和 ZI)=0，7 世 0， 
Feoxp (7) = 人 Me dt=~e *| =1-e*”, z>0. 
0 
现在 比较 两 个 分 布 函数 , 令 5= -In(1 一 p)/, 这 样 
-1 —p». 
分 布 函数 Foxp 在 x = n6 处 是 与 oo 在 n 处 相等 的 , n = 1,2,…, 即 
Fexp(n6) = Fgeo(n), n= 1,2,... 


现在 假定 我 们 以 很 快 的 速度 抛 搓 一 枚 不 均匀 的 硬币 (每 5 秒 抛掷 一 次 , 5 < 1), 每 
次 抛 丘 , 正面 向 上 的 概率 为 p = 1--e-X%. 这 样 , 第 一 次 得 到 正面 向 上 所 抛掷 的 次 数 
六 X, 第 一 次 得 到 正面 向 上 的 时 刻 为 X6. X6 与 参数 为 和 的 指数 随机 变量 十 分 接 

这 只 须 看 它们 的 分 布 函数 即 可 ( 见 图 3.8). 在 第 6 章 中 , 讨论 伯 努 利和 泊 松 过 程 
的 时 人 这 种 关系 显得 特别 重要 . 


y 指数 分 布 函 数 1 一 e- 


X6 的 分 布 函 数 


图 3.8 几何 随机 变量 和 指数 随机 变量 的 分 布 函数 之 间 的 关系 . 图 中 离散 分 布 函数 为 X5 的 分 
布 函数 , X 是 参数 为 p = 1 - e-” 的 几何 随机 变量 . 当 5 一 0 时 ,，X6 的 分 布 函数 趋 
于 指数 分 布 函数 1 一 e*” 
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3.3” 正 态 随 机 变量 


一 个 连续 随机 变量 X 称 为 正 态 的 或 高 斯 的 ， 若 它 的 密度 函数 具有 下 列 形式 
( 见 图 3.9): 


fx (2) = eA/(20), 
270 


其 中 py 和 o 是 密度 函数 的 两 个 参数 , o 还 必须 是 正 数 . 可 以 证 明 , fx(z) 满足 下 面 
的 概率 密度 函数 的 归 一 化 条 件 ( 见 本 章 末尾 的 习题 ): 


1 29 一 ( 2 2 2 
ez-H) /20 qr = 1 
270 ./ -oo 


一 1 0 1 2 3 多 
正 态 PDF fx(2) 正 态 CDF Fx(z) 


图 3.9 正 态 分 布 的 密度 函数 和 分 布 函 数 (/ = 1 和 o? = 1)， 由 图 可 以 看 出 , 密度 函数 
是 相对 于 均值 jy 对 称 的 钟 形 曲线 . 当 x 离开 / 的 时 候 ， 密度 函数 的 表达 式 中 的 项 
ee- 六 /Ge ) 很 快 地 下 降 . 在 图 中 , 概率 密度 函数 在 区 间 [-1, 3] 之 外 非常 接近 于 0 


正 态 随机 变量 的 均值 和 方差 可 由 下 式 给 出 
E[X] = 4, var(X)=02. 


由 于 X 的 概率 密度 函数 相对 于 jy 对 称 , 其 均值 只 能 是 jy. 至 于 方差 的 公式 , 依 定义 
它 由 下 式 给 出 
var(X)= 


1 / (2 eh"/(20) gy 
270 J_o0 


将 公式 中 的 积分 作 积分 变量 蔡 换 y = (zx - 1)/o 以 及 分 部 积分 , 得 到 


ye /2qdy 


一 -7/2)|™ -2 
-i )| -+ 一 二 ee dy 
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上 面 最 后 的 等 式 是 由 于 


1 一 急 /2 1 一 
|， 
这 个 公式 正好 是 当 jy = 0 和 o? = 1 的 时 候 的 正 态 随机 变量 的 概率 密度 函数 的 归 一 
化 条 件 . 
正 态 随机 变量 具有 若干 重要 的 性 质 . 下 面 的 性 质 尤 其 重要 , 并 且 将 在 4.1 节 中 
加 以 证 明 . 


线性 变换 之 下 随机 变量 的 正 态 性 保持 不 变 
设立 是 正 态 随机 变量 , 其 均值 为 py, 方差 为 o2. 若 w 天 0 和 为 两 个 常数 ， 
则 随机 变量 


Y=aX+ob 
仍然 是 正 态 随 机 变量 , 其 均值 和 方差 由 下 式 给 出 : 


E[Y] =ay+b, var(Y) = a2c2. 


标准 正 态 随机 变量 


设 正 态 随机 变量 Y 的 期 望 为 0, 方差 为 1, 则 Y 称 为 标准 正 态 随 机 变量 . 以 再 
记 为 它 的 CDF( 参 看 图 3.10): 


Ey) =P(Y SH) =PY < = a et/2qt 
和 V27 J l 


通常 将 它 的 值 列 成 一 个 表 ( 见 表 3.1), 这 是 计算 有 关 正 态 随机 变量 的 概率 的 重要 的 
工具 . 


0.399 


面积 = (0.7 


= 0 0.7 2 -1 0 0.7 2 y 
标准 正 态 PDF 标准 正 态 CDF &(y) 


图 3.10 标准 正 态 随机 变量 的 概率 密度 函数 fx (xz) = 起 e 7 和 相应 的 分 布 函数 B(y). 
鲁 (y) 的 数值 有 表 可 查 
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表 3.1 标准 正 态 分 布 表 


0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 


0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 


0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 
.0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 


1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 


1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 


2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 


2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 


3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 


表 中 的 数据 为 标准 正 态 分 布 函数 的 函数 值 8(y) = P(Y < 分 , 其 中 Y 为 标准 正 态 随 机 变量 ,y 的 变 
化 范围 为 0 < y < 3.49. 例如 要 查找 再 (1.71) 的 值 , 我 们 只 和 需 在 1.7 这 一 行 中 找 与 0.01 对 应 那 一 列 的 数 
值 . 故 再 (1.71) = 0.956 4. 当 4 为 负 值 的 时 候 , 可 利用 公式 更 (y) = 1 一 玫 ( 一 y) 找到 (vy) 的 值 
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表 中 列 出 的 数据 为 8(y) 的 值 (y > 0), 利用 标准 正 态 随 机 变量 的 概率 密度 函数 
的 对 称 性 , 可 将 y < 0 时 B(y) 的 值 推 导出 来 . 例如 
B(-0.5) =P(Y < -0.5) = P(Y > 0.5)=1-P(Y <0.5) 
=1— ®(0.5) =1— 0.691 5 = 0.308 5. 
更 一 般 地 , 我 们 有 
®(-y) = 1 一 (Y)， 对 一 切 y 成 立 . 


现在 设 X 是 正 态 随机 变量 , 期 望 为 /, 方差 为 o2. 将 X 标准 化 成 为 新 的 随机 
变量 YY: 


yk 
由 于 Y 是 X 的 线性 函数 , 所 以 Y 也 是 正 态 随机 变量 . 进一步 ， 
E[Y] SD = 0， var(Y) = 人 =1. 


这 样 , Y 就 是 一 个 标准 正 态 随机 变量 . 利用 这 个 事实 , 可 以 计算 关于 X 的 事件 的 概 
率 . 将 关于 XX 的 事件 化 成 由 了 表达 的 事件 , 再 利用 标准 正 态 分 布 表 , 就 可 以 计算 
关于 X 的 事件 的 概率 . 
例 3.7 (利用 正 态 分 布 函数 表 ) ” 某 地 区 的 年 降雪 量 是 一 个 正 态 随机 变量 , 期 望 为 
60 英寸 , 标准 差 o = 20 英寸 , 本 年 降雪 量 至 少 为 80 英寸 的 概率 有 多 大 ? 

记 X 为 年 降雪 量 , 令 


及 一 人 天 一 60 


Y= 
CT 20 
显然 Y 是 标准 正 态 随机 变量 . 
六 一 60 80 一 60 80 一 60 
PCC>s0=P( > ) =P(r> 亏 ) -Pr >D=I-s0) 


其 中 GB 为 标准 正 态 分 布 函数 . 通过 查 表 得 
亚 (1) = 0.841 3, 


P(X > 80)=1— ®(1) = 0.158 7. 口 
将 上 面 的 方法 进行 总 结 , 得 到 如 下 结果 . 


关于 正 态 随机 变量 的 CDF 的 计算 


利用 标准 正 态 分 布 表 计 算 正 态 随机 变量 X 的 分 布 函数 (X 的 均值 为 /方差 
为 2), 下 面 分 两 部 分 进行 : 
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(a) 将 六 标准 化 , 即 减 去 1, 再 除 以 c 得 到 标准 正 态 随机 变量 了 . 
(b) 从 标准 正 态 分 布 表 查 得 CDF 的 值 : 


Px <o) -Pp (Tt< st) -Pr(Y< 4) -= (5), 
其 中 是 标准 正 态 随机 变量 . 


在 信号 处 理 和 通信 工程 中 通常 将 噪声 看 成 一 个 随机 变量 , 它 加 在 信号 上 面 , 使 
之 变形 . 下 面 是 一 个 典型 的 例子 . 
例 3.8 (信号 检测 ) ” 记 一 个 传输 的 信号 为 5, 3S = 1 或 5 = -1. 由 于 通信 误差 , 在 
接收 端 得 到 的 是 加 有 噪声 的 信号 , 噪声 N 是 一 个 正 态 随机 变量 , 均值 为 4 = 0, 方 
差 为 o2. 如果 接 收 端 得 到 的 混 有 噪声 的 信号 大 于 0, 则 判断 信号 5 = 1; 如 果 接 收 
端 得 到 的 混 有 噪声 的 信号 小 于 0, 则 判断 信号 5 = -1( 见 图 3.11). 问 这 种 判断 方法 
的 误差 有 多 大 ? 


正 态 噪声 N， 
均值 为 0, 方差 o? 


十 ] 若 s 十 N 之 0 


5 二 十 1 或 -1 -1 车 s+N<0 


图 3.11 例 3.8 中 信号 检测 问题 的 图 示 .， 图 中 阴影 部 分 的 面积 分 别 表示 传输 的 信号 为 -1 和 
+1 时 发 生 误 传 的 概率 


当 传 输 方 传输 的 信号 为 S$ = -1, 而 噪声 N > 1, 此 时 S+N=N-1>0，, 
接收 方 误 判 为 5S = +1， 当 传输 方 传输 的 信号 为 5 = 1, 而 噪声 N < -1, 此 时 
S+N=N+l<0, 接 收 方 误 判 为 9 = -1. 因此 , 当 5 = -1 的 时 候 , 误 判 概率 为 


PV>D=1-PN<D=1-P(Y < 2 
Oo oO 
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由 对 称 性 可 知 , 若 发 送 的 信号 为 $ = +1, 其 相应 的 误 判 概率 也 是 1 - B(1/o). 而 
(1/c) 可 通过 查 表 得 到 , 例如 当 o = 1 的 时 候 , $B(1/0) = 更 (1) = 0.841 3, 判断 误差 
的 概率 为 0.158 7. 口 

正 态 随机 变量 在 概率 论 中 起 着 十 分 重要 的 作用 . 其 原因 是 在 物理 、 工 程 和 统计 
中 , 许多 随机 量 是 由 许多 独立 效应 又 加 而 成 的 . 而 数学 上 , 又 有 这 样 的 事实 : 大 量 
的 独立 同 分 布 的 随机 变量 (不 必 为 正 态 ) 的 和 的 分 布 近似 地 服从 正 态 分 布 , 而 这 个 
事实 与 各 个 和 项 的 具体 的 分 布 是 无 关 的 . 这 个 事实 就 是 著名 的 中 心 极限 定理 . 我 们 
将 在 第 5 章 讨论 此 内 容 . 


3.4 ”多 个 随机 变量 的 联合 概率 密度 


现在 将 PDF 的 概念 推广 到 多 个 随机 变量 的 情况 . 与 离散 的 情况 相似 , 我 们 将 
引进 联合 、 边 缘 以 及 条 件 PDF 的 概念 , 其 直观 解释 和 主要 性 质 与 离散 情况 完全 平 
行 . 

设 X 和 了 为 在 同一 个 试验 中 的 两 个 随机 变量 若 它们 存在 联合 的 概率 密度 
函数 , 则 称 X 和 YY 是 联合 连续 的 . 那么 联合 的 概率 密度 函数 是 如 何 定义 的 呢 ? 非 
负 的 二 元 函数 fx,y(z,y) 称 为 XX 和 YY 的 联合 概率 密度 函数 , 如 对 任意 的 平面 上 的 
二 元 集合 B, 下 式 成 立 : 


P(X,Y) eB)= | | J Tr (nandy, 
TY 


上 式 的 积分 是 二 重 积 分 , 积分 区 域 为 B. 特别 地 , 车 B= {(z,yla < rz<bc<ysg 
d}, 则 上 式 变 成 


Plags XbcsY sd)= [ 三 fx,Y (7,y)drdy. 
进一步 , 若 令 B 为 全 部 二 维 平面 , 就 可 以 得 到 密度 函数 的 归 一 化 条 件 
广 广 jxy(z,y)dzdy = 1. 


为 解释 联合 概率 密度 函数 的 意义 , 取 6 为 一 个 充分 小 的 正 数 , 考虑 (X,Y) 落 
入 一 个 小 方块 内 的 概率 ， 


até recté 
pla<x<atdc<y<etd= 上/ / fxy(z,ydrdy ~ fxr(a,c) .62, 


我 们 可 以 将 fxy(a,c) 看 成 (X,Y) 落 入 (a,c) 附近 单位 面积 中 的 概率 . 
联合 概率 密度 函数 包含 了 所 有 关于 (X,Y) 的 取 值 概率 的 信息 , 包括 它们 之 闻 
的 相互 依赖 的 信息 . 利用 它 , 我 们 可 以 计算 任何 由 (X,Y) 所 刻画 的 事件 的 概率 . 作 
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为 特殊 情况 , 我 们 可 以 计算 单独 一 个 随机 变量 (X 或 Y) 所 刻画 的 事件 的 概率 . 例 
如 , 令 4 为 一 个 实数 的 集合 , 考虑 事件 {X e A}. 我 们 有 
P(X €A)=P(X EA,Y €(-o0,o00) )=// fx,Y (x, ydrdy. 

与 下 面 的 公式 比较 

P(X € A) =- 人 Fr(zjdz， 
就 可 以 知道 , X 的 边缘 概率 密度 流 数 由 下 式 给 出 

产 四 = fry way 
类 似 地 可 得 _ 

=/ fx,y (zx,Yy)dz. 


例 3.9 (二 维 均匀 概率 密度 函数 ) ”罗密欧 和 朱丽叶 约定 在 某 时 某 地 约会 , 但 是 每 
个 人 都 会 延迟 , 延迟 时 间 在 0 至 1 小 时 之 间 ( 见 1.2 节 的 例子 ). 令 X 和 了 分 别 为 
罗密欧 和 朱 丽 时 迟 到 的 时 间 . 假定 他 们 退 到 的 时 间 (zx,y) 在 单位 正方 形 中 是 等 可 能 
的 . 这 样 (X,Y) 的 联合 概率 密度 函数 就 很 自然 地 定 为 

c， 若 0<szs1l0<yg1, 

0， 其 他 ， 


其 中 。 是 一 个 常数 , 由 于 概率 密度 函数 满足 归 一 化 条 件 


oo ooe 1 1 
/ / fx,Y (X,Yy)drdy = / / cdzdy = 1, 
一 oo v 一 cc 0 0 


c=1. 


这 是 一 个 联合 均匀 概率 密度 函数 的 例子 ， 更 一 般 地 , 令 5 是 二 维 平 面 上 的 一 个 子 
集 . 在 子 集 5 上 的 联合 均匀 概率 密度 函数 是 由 下 式 定义 的 : 


1 
me 若 (Zz 5 
fx,Y (7, y) 二 5 的 面积 ( - 
0， 其 他 ， 
对 任何 S 的 子 集 4, (X,Y) 落 入 区 域 4 的 概率 为 
P(X,Y) et)= | | fxy (2,Y) ddy = 


_ 4 的 面积 
“5 的 面积 


fx,Y (2,Yy) = | 


由 此 可 以 确定 


1 
一 dzd 
5 的 面积 /人 
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例 3.10 设 X 和 Y 是 在 平面 中 集合 S 上 的 均匀 随机 变量 , 即 它们 的 联合 概率 密 
度 函 数 在 集合 5 上 为 常数 c, 在 集合 5S 之 外 为 0. 而 5 的 形状 如 图 3.12 所 示 . 现 
在 希望 求 出 概率 密度 函数 中 的 常数 c 以 及 X 和 了 的 边缘 概率 密度 函数 . 


图 3.12 例 3.10 中 的 联合 概率 密度 函数 和 相应 的 边缘 概率 密度 函数 . 


由 图 所 示 , 3 的 面积 为 4, 这 样 fx,y (z,y) = c= 1/4,(z,y) & 3. 现在 求 X 的 边 
缘 概 率 密度 函数 fx(z), 我 们 只 需 固定 z 的 值 , 将 联合 概率 密度 函数 对 y 进行 积分 ， 
就 可 以 得 到 fx(x) 的 值 . 最 后 的 结果 都 列 于 图 3.12 中 . fy 的 计算 是 类 似 的 ， 口 
例 3.11 ( 薄 丰 的 抛 针 试 验 )” 这 是 一 个 著名 的 例子 , 几何 概率 由 此 发 源 . 所 讨论 的 
问题 是 对 随机 放置 的 对 象 的 几何 性 质 的 分 析 . 

在 平面 上 画 了 若干 条 平行 线 , 相互 之 间 的 距离 为 d( 见 图 3.13). 现在 往 平面 上 
随机 地 抛 抑 一 根 针 , 针 的 长 度 为 1. 问 针 与 直线 相交 的 概率 有 多 大 ? 

我 们 假定 ! < a, 这 样 针 不 能 同时 与 两 条 直线 同时 相交 . 令 X 为 针 的 中 点 离 最 
近 的 那 一 条 直线 的 垂直 距离 , 9 表示 针 与 平行 直线 之 间 的 夹 角 ( 见 图 3.13). 我 们 假 
定 (X, 96) 的 联合 概率 密度 函数 为 矩形 集合 {(z,0)l0 < x < 4d/2,0 < 09<n/2} 上 的 
联合 均匀 概率 密度 函数 . 因此 


4/(rd)j)， 若 zel0,d2 和 bel0,r/2]， 


Jxe(z,0) = 人 其 他 


Q 这 个 问题 为 法 国 自 然 学 家 蒲 丰 于 1777 年 提出 并 解决 ， 此 后 , 出 现 许多 类 似 的 问题 , 包括 拉 普 拉 斯 
(1812 年 ) 提出 的 向 具有 网 格 的 平面 上 丢 针 问题 ( 见 本 章 末 尾 的 习题 ). 这 个 问题 引起 了 科学 家 的 
兴趣 , 并 且 作 为 以 试验 产生 x 的 主要 手段 . 据说 , 在 美国 内 战 的 时 候 , 有 一 个 名 为 福克斯 的 陆军 上 
尉 在 养伤 的 时 候 用 针 进 行 抛 丘 试 验 ,以 获得 x 的 值 . 在 互联 网 上 也 有 人 利用 蒲 丰 的 想法 , 他 们 用 几 
个 图 形 模拟 程序 计算 x 的 值 . 
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由 图 3.13 可 以 看 出 , 针 与 平行 直线 相交 的 充 要 条 件 为 


其 相应 的 概率 为 


P(X < (1/2)sin©) = / / fx,e(z,0)dzd0 
rz&(l/2) sing 


4 n/2 pl/2) sing 
二 一 / / dzd0 
nd 0 0 


4 7/2 1 . 
一 六/ 5sinbdb 


T/2 
一 二 (- COS 中 
27 
= 7 
我 们 也 可 利用 试验 来 估计 针 与 平行 直线 相交 的 概率 . 其 方法 是 重复 大 量 的 抛 丘 针 
的 试验 , 将 针 与 平行 直线 相交 的 频率 作为 这 个 概率 的 估计 值 . 由 于 这 个 概率 值 等 于 
2!/(rxd), 这 种 方法 也 同时 提供 了 x 的 经 验 佑 值 的 方法 . 口 


图 3.13 薄 丰 的 抛 针 试验 , 设 针 的 中 点 与 最 靠近 的 平行 线 的 距离 为 z, 针 的 中 点 与 针 所 在 直线 
与 平行 线 的 交点 之 间 的 距离 为 z/ sin9. 显然 针 与 平行 线 相交 的 充 要 条 件 为 z/ sin9 < 
1/2 


3.4.1 ”联合 分 布 函 数 


设 XX 和 Y 是 在 同一 个 试验 中 的 两 个 随机 变量 . 我们 定义 它们 的 联合 分 布 函 
数 为 
Fxy(z,y) = P(X < Zz,Y < Yo). 
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与 一 个 变量 的 分 布 函数 一 样 , 它 既 适用 于 离散 随机 变量 , 也 适用 于 连续 的 随机 变量 . 
特别 地 , 若 X,Y 具有 联合 的 概率 密度 函数 (简称 联合 PDF), 则 


Fxy(Zy) = P(X <Z7,Y <Y) -人 三 fx,r{s,t)dsdt. 


相反 , 联合 概率 密度 函数 也 可 从 联合 分 布 函数 通过 求 微 商 得 到 : 


D2Fxy 


例 3.12 设 基 和 Y 为 单位 正方 形 上 的 联合 均匀 随机 变量 . 其 联合 分 布 函数 为 
Fxy(z,y)=P(X SrY Y=ry 对 0< zy &1. 


O2Fx,y 
zy -记功 二 Soe Bro =1= fxY(s,). 口 


3.4.2 ”期 望 


设 多 和 YY 为 联合 连续 的 随机 变量 , 9 是 一 个 函数 , 则 g(X,Y) 也 是 一 个 随机 
变量 . 在 4.1 节 中 我 们 将 讨论 Z 的 期 望 的 计算 方法 . 现在 我 们 必须 指出 , 计算 期 望 
的 期 望 规则 仍然 有 效 . 因此 


aoCcz = 广 weopxrGaazay 
作为 一 种 重要 的 特殊 情况 , 对 于 常数 we 我 们 有 
ElaX +bY +d = aE[X]+ bEIY] + 


3.4.3 ”多 于 两 个 随机 变量 的 情况 


3 个 随机 变量 X,Y 和 2 的 联合 概率 密度 函数 的 定义 与 两 个 随机 变量 的 情况 
是 完全 相似 的 . 例如 , 满足 下 列 条 件 


P(X YDeB= /f/f fevzey sdrdydz, vB 
(zy,2)EB 


的 非 负 函数 fxrz(z,y z) 就 是 (X,Y,Z) 的 联合 概率 密度 函数 . 下 列 类 型 的 关系 都 
是 成 立 的 : 


ixroy)= | fx,Y,2 (7,Y, 2)dz, 


fx(7) = 广 广 fx,r,2 (7,Yy, 2)dydz. 
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计算 随机 变量 g(X,Y, 2) 的 期 望 的 规则 是 
Elg(X,Y, 2)] = 三 广 三 9 2 2)fx,Y,2(7,Y, z)dzdydz， 
若 9 是 一 个 线性 函数 aX + bY + c2, 则 
ElaX +bY + c2] = oEIX + bE[Y) + cE[2]. 


车 涉及 的 随机 变量 的 个 数 多 于 3 个 , 相应 的 改变 是 明显 的 . 例如 , 对 于 随机 变量 
Xi 羡 2，… ,Xn, 我 们 有 


El[laiX1 十 Q2 关 2 十-… 十 anXn] 一 a1E[Xi1| 十 a2E[X2] 十 …… 十 anE[Xn]. 


多 元 连续 随机 变量 的 性 质 的 综合 
令 针 和 Y 为 联合 连续 随机 变量 , 其 联合 概率 密度 函数 为 fx,y (72,9). 
。 利用 联合 概率 密度 函数 可 以 进行 概率 计算 : 


((X,Y)€B)= | 1].,., fx,r (x, Ydrdy. 


。 久 和 了 了 的 边缘 联合 概率 密度 函数 可 利用 联合 概率 密度 函数 进行 计算 得 
到 : 


fx(z) = 人 felz ydy, fy(y) = 人 fs) (zd 


。 联合 分 布 函数 是 由 公式 Fx,y (7,y) 二 P(X < zx,Y < Vy) 所 定义 , 并 且 , 在 联 


O02Fx,y 
fx,r (X,Y) 一 OrOy (x, y). 


。 久 和 YY 的 函数 g( 义 ,Y) 定义 了 一 个 新 的 随机 变量 , 并 且 
Elg(X, Y)| -三 fa (x,Yy) fx,Y (T, ydrdy. 


若 9 是 一 个 线性 函数 aXx 十 bY 十 c, 则 


ElaX + bY + ce = aE[X] + bE[Y]+ 


。 上 面 的 结论 能 够 很 自然 地 推广 到 多 于 两 个 随机 变量 的 情况 . 
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3.5 条 件 


与 离散 随机 变量 的 情况 相似 , 可 以 以 一 个 随机 事件 或 另 一 个 随机 变量 为 条 件 ， 
讨论 随机 变量 的 特性 , 并 在 此 基础 上 建立 条 件 分 布 密度 和 条 件 期 望 的 概念 . 各 种 定 
义 和 公式 都 与 离散 的 情况 平行 , 且 其 意义 的 解释 也 都 是 类 似 的 . 在 连续 情况 下 , 还 
会 遇 到 以 零 概率 事件 {Y = 0} 为 条 件 的 情况 , 这 在 离散 情况 下 是 无 法 处 理 的 . 
3.5.1 ”以 事件 为 条 件 的 随机 变量 


一 个 连续 随机 变量 X 在 给 定 条 件 {X es 4}(P{X e 4} > 0) 下 的 条 件 概 率 密 
度 函 数 fxla(z) 是 这 样 定义 的 : 它 是 一 个 非 负 函数 , 并 且 对 一 切 直线 上 的 集合 B， 
满足 


P(X ec BIA) = 上 pradar 


特别 地 , 当 B 取 成 全 部 实数 集合 的 时 候 , 得 到 归 一 化 等 式 
广 Jxia(z)dz = 1, 


这 说 明 xia 是 一 个 合格 的 概率 密度 函数 . 

当 我 们 将 事件 4 取 成 {X € 4] 的 形式 以 后 (P(X es 4) > 0), 由 条 件 概 率 的 定 
义 得 到 
P(XEAXEB) [afx(r)dr 

P(Xeh) P(XeAh) 


将 这 个 式 子 与 前 面 的 关于 条 件 密度 函数 的 定义 比较 , 可 知 


fx(7) 
fxla(z) = $4 P(XEA) 车 ze 444， 
0, 其 他 . 


P(X € BIXEA)= 


与 离散 情况 相同 , 条 件 概率 密度 函数 在 条 件 集合 外 边 的 取 值 为 0. 在 条 件 集合 
内 部 , 条 件 概率 密度 函数 与 无 条 件 概率 密度 函数 具有 相同 的 形状 , 唯一 的 差别 是 条 
件 概率 密度 函数 还 有 一 个 归 一 化 因子 1/P(X se 4). 归 一 化 因子 1/P(X e 4) 使 得 
fxla(z) 的 积分 为 1, 从 而 jxia(z) 成 为 一 个 合格 的 概率 密度 函数 ( 见 图 3.14). 这 
样 , 条 件 概率 密度 函数 与 概率 密度 函数 一 样 , 不 过 它 将 已 经 发 生 的 事件 {X e A} 作 
为 随机 试验 的 全 空间 . 

例 3.13 (指数 随机 变量 的 无 记忆 性 ) ”一 个 灯泡 的 使 用 寿命 了 是 一 个 指数 随机 变 
量 , 其 参数 为 和 . 阿 丽 将 灯 打 开 后 离开 房间 , 在 外 面 呆 了 一 段 时 间 以 后 (时 间 长 度 为 
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芒 , 她 回 到 房间 , 灯 还 是 亮 着 . 这 相当 于 事件 4= {T > 妇 发生 了 . 记 X 为 灯泡 的 剩 
余 寿 命 , 问 X 的 分 布 函数 是 什么 ? 实际 上 X 是 在 4 发 生 的 条 件 下 的 寿命 , 我 们 有 


P(X > 24) =P( >t+z|lT > 
P(T>t+z 且 TT>) 
P(T > 
P(T > 上 十 2) 
PITS 
一 X(t+z) 
eG 一 外 


_ ez, 


此 处 我 们 利用 了 3.2 节 中 得 到 的 指数 随机 变量 的 分 布 函数 的 公式 . 


图 3.14 无 条 件 概率 密度 函数 fx 和 条 件 概率 密度 函数 /xjtxeaj, 其 中 4 是 区 间 [o, 吕 注意 
在 集合 4 内 , jxltxeajy 的 形状 与 fx(z) 保持 一 致 , 除了 在 y 轴 方 向 有 一 个 压缩 因子 


灯泡 的 剩余 寿命 X 的 分 布 函数 是 指数 分 布 , 其 参数 也 是 和 这 和 灯泡 已 经 亮 
了 多 少 小 时 是 无 关 的 . 指数 分 布 的 这 个 性 质 就 是 指数 分 布 的 无 记忆 性 . 一 般 地 , 若 
将 完成 某 个 任务 所 需要 的 时 间 的 分 布 定 为 指数 分 布 , 那么 只 要 这 个 任务 没有 完成 ， 
要 完成 这 个 任务 所 需要 的 剩余 时 间 的 分 布 仍然 是 指数 分 布 , 并 且 其 参数 也 是 不 变化 
的 . 口 
当 涉 及 多 个 随机 变量 的 时 候 , 相应 地 有 联合 条 件 分 布 密度 函数 . 例如 , 设 多 和 
Y 是 联合 连续 的 随机 变量 , 其 联合 分 布 密度 为 fx r， 设 作为 条 件 的 正 概率 事件 为 
C= {(X,Y) e 4}, XX 和 YY 的 联合 条 件 分 布 密 度 为 


fx,Y (7, y) 


1 若 TI， 4, 
fx,rIc(z,Yy) = P(O) (2,y) € 
0， 其 他 . 


此 时 X 的 相对 于 条 件 C 的 条 件 分 布 密度 可 从 联合 条 件 分 布 密度 得 到 
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fxic(7) = 广 Jxrlc(z, 9)dy. 
这 两 个 公式 说 明 , 当 刻 画 条 件 的 事件 不 具有 形式 Xe 4, 而 是 通过 多 元 随机 变量 表 
达 的 时 候 , X 的 条 件 概率 密度 可 通过 联合 条 件 概 率 密度 得 到 . 


最 后 我 们 要 介绍 一 个 全 概率 定理 的 条 件 概 率 密度 版 本 . 设 41,… , 4" 是 样本 
空间 的 一 个 分 割 , 则 


一 > P(Ai)fxla(z). 
为 验证 这 个 公式 , 我 们 只 需 利用 第 1 章 的 全 概率 定理 , 得 到 
P(X < 2)= 2 i)P(X < z|Ai). 
将 这 个 公式 写成 积分 形式 
[mat= > P(A) 人 Pad 
再 在 两 边 对 z 求 导数 , 就 得 到 所 需 的 结果 . 


以 事件 为 条 件 的 条 件 概 率 密度 函数 
。 对 于 给 定 的 事件 4(P(4) > 0), 连续 随机 变量 苹 的 条 件 概率 密度 fx|4 是 
满足 下 列 条 件 的 函数 : 


P(X € BIA) = 上 xia(zjdz， 


其 中 BB 是 实数 轴 上 的 任意 集合 . 
。 设 4 是 一 个 实数 集合 , 满足 条 件 P(X es 4) > 0, 则 


jx (7) 车 ZE4 


fxl{(xea}(7) = $4 P(X EA) 
0, 其 他 . 


。 设 41,42,… ,An 为 互 不 相 容 的 n 个 事件 , 对 每 个 i, P(Ai) > 0, 并 且 这 些 
事件 形成 样本 空间 的 一 个 分 割 . 则 


fx(7) = 2 让 jxl4i(Z 


(全 概率 公式 的 一 种 变形 ). 
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下 面 的 例子 用 全 概率 公式 来 计算 概率 密度 函数 . 
例 3.14 你 家 离 城 铁 车 站 比较 近 . 已 知 从 早晨 6:00 开始 , 每 一 刻 钟 有 一 列车 进入 城 
铁 车 站 . 而 你 步行 到 达 城 铁 车 站 的 时 刻 为 7:10 到 7:30 之 间 , 并 且 到 达 时 刻 是 [7:10， 
7:30] 上 均匀 分 布 的 随机 变量 . 求 你 在 车 站 上 等 车 时 间 的 概率 密度 函数 . 

记 对 为 你 到 达 车 站 的 时 刻 , X 的 分 布 为 [7:10, 7:30] 上 均匀 随机 变量 ( 见 图 
3.15a). 记 了 为 等 待 时 间 . 我 们 利用 全 概率 公式 计算 Y 的 概率 密度 函数 . 记 


A={7:10<< 针 <<7:15} = { 你 赶 上 7:15 的 车 }， 
已 ={7:15< 和 和 7:30} = {你 赶 上 7:30 的 车 }. 


事件 4 发 生 的 条 件 下 , 你 到 达 车 站 的 时 刻 X 是 在 [7:10,7:15] 上 均匀 随机 变量 . 这 
样 你 等 待 时 间 Y 是 在 0 分 到 5 分 之 间 的 均匀 随机 变量 ( 见 图 3.15b). 类 似 地 , 在 B 
的 条 件 之 下 ,了 是 在 0 分 到 15 分 之 间 的 均匀 随机 变量 ( 见 图 3.15c). 利用 全 概率 公 
式 的 变形 , Y 的 概率 密度 函数 为 


fy(y) = P(A)fyla(y) +P(B)fyIB(Y), 


( 见 图 3.15d). 这 样 


7:10 7:15 
(a) 


fra(W 


(d) 
图 3.15 例 3.14 中 的 概率 密度 函数 jx hahiap 和 六 
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3.5.2 ”一 个 随机 变量 对 另 一 个 随机 变量 的 条 件 


设 和 和 YY 为 联合 连续 的 随机 变量 , 其 联合 概率 密度 函数 为 fx y(z,y). 对 任 
何 满足 fy(y) > 0 的 y 值 , 在 给 定 Y = y 的 情况 下 , X 的 条 件 概率 密度 函数 由 下 式 
定义 : fx Y(Z， y) 
fxlr (zly) = a 


这 个 定义 与 离散 情况 下 的 公式 pxjy (zjy) = px,y (z,y)/pr(y) 完全 相似 . 

在 考虑 条 件 概率 密度 函数 的 时 候 ,最 好 将 y 值 固 定 下 来 ,并 将 fxjy(zly) 看 
成 x 的 函数 .作为 z 的 函数 , 条 件 概率 密度 函数 fxly(zly) 与 联合 概率 密度 函 
数 fx,y(z,y) 具有 相同 的 形状 , 这 是 因为 它们 仅 相 差 一 个 与 z 无 关 的 常数 因子 
fyY()( 见 图 3.16). 另外 ， 


nn 


fx,y (7,9) = > P(Ci) fxrlc; (2,Y). 


i=1 


暗示 了 归 一 化 性 质 
人 和 


所 以 , 对 任何 y 值 ,fxir(z|ly) 是 一 个 合格 的 概率 密度 函数 . 


4 | fxr(2|3.5) 

加 
3 1/2 fur(2|2.5) 
2 | fxiy(7|1.5) 


> 
化 


| 2 3 亏 
图 3.16 条 件 概 率 密度 函数 jxiyr(zly) 的 直观 解释 . 设 和 和 Y 的 联合 概率 密度 函数 是 在 8 
上 的 均匀 概率 密度 函数 .对 固定 的 y 值 , 我 们 只 需 将 联合 概率 密度 函数 沿 Y 二 y 这 
一 片 进行 归 一 化 , 就 可 以 得 到 1 
例 3.15 ( 圆 上 的 均匀 概率 密度 函数 ) ”本 在 玩 一 个 
抑 飞 标 游戏 , 高 是 一 个 半径 为 7 的 圆 板 ( 见 图 3.17). 
我 们 假定 飞 标 总 是 掷 向 目标 ， 而 每 一 个 落 点 (zx,y) 
是 等 可 能 的 .所 以 作为 落 点 的 (X,Y) 的 联合 概率 
密度 函数 是 圆 上 的 均匀 概率 密度 函数 . 根据 例 3.9， 
X 和 YY 的 联合 概率 密度 函数 为 


贺 的 面积 区 
fx,Y (zx,y) = | Bm 者 (x, 在 圆 内 ， 
0， 其 他 ， 图 3.17 例 3.15 中 的 圆 形 葛 
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1 2 2 2 
一 2 若 z 十 9 <r ) 
一 nr 
( 其 他 . 


现在 计算 条 件 概 率 密度 函数 fxjy (zly). 为 此 先 计算 边缘 概率 密度 函数 fy(y). 
对 于 |y| >7, fy(y) =0. 对 于 ly| < 7, 通过 下 列 计算 得 到 fy(y) 的 值 : 


fy(y) = 广 fx,r (x, Ydz 
1 


= 一 5 dz 
Tr zr24y2 gr2 
1 /r2—y? 
= 一 5 dz 
nr —Vr?2—y2? 
2 
一 2 2 
= 一 Vr2 一 &r. 
元 y2， |yl 


注意 , Y 的 边缘 概率 密度 函数 不 是 均匀 的 . 
X 的 条 件 概 率 密度 函数 为 


1 
_ fx,r(7,Y) Tir2 1 


fxlr (zly) 一 fA) 三 了 Va = 2 zx? + < r2. 
Nr 
这 样 , 对 固定 的 y, 条 件 概率 密度 函数 fxly 是 均匀 的 概率 密度 函数 0 


现在 来 解释 条 件 概率 密度 函数 的 概率 意义 . 令 51 和 52 是 两 个 小 的 正 数 , 考虑 
条 件 B= {y <<Y < y+ 652}. 我 们 有 


Pl(z <X<rio yyY <y+6, 
Pl SX Sst <Y yt 攻 二 和 
BY 入 了 


~ fx,Y (z,Yy)6162 
fy (y)62 


= fxjy (Z|y)61. 


换言之 ，fxjy(zx|ly)61 就 是 在 给 定 Y es [y,y + 5] 的 条 件 之 下 ,XX 属于 小 的 区 间 
[z,z 十 01] 的 概率 . 由 于 fxlY (XY 并 不 依赖 于 02， 我 们 可 以 将 jxir(zly)6 认为 
是 当 02 一 0 的 极限 情况 , 即 
P(z < Xr+hlY = fxr(z|W)N (6 较 小 )， 
更 一 般 地 ， 
P(X e AY = = 人 jxrlelnae 
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在 第 1 章 中 , 给 定 零 概率 事件 Y = y, 相应 的 条 件 概率 是 没有 定义 的 . 但 是 , 上 述 公 
式 给 出 了 以 零 概率 事件 为 条 件 的 条 件 概率 的 一 个 自然 的 定义 . 此 外 , 条 件 概率 密度 
函数 fxlv(zly) 可 以 解释 为 XX 的 在 给 定 Y =y 之 下 的 概率 律 . 

正如 离散 情况 一 样 , 我 们 可 以 利用 条 件 概率 密度 函数 fx|y (zjy) 和 边缘 概率 密 
度 函 数 fy 计算 相应 的 联合 概率 密度 函数 fx,y. 事实 上 , 为 了 刻画 一 个 概率 律 , 我 
们 并 不 需要 直接 列 出 联合 概率 密度 函数 fx,y, 通常 只 需 先 给 出 Y 的 概率 律 广 , 然 
后 给 出 已 知 Y =y 的 情况 下 X 的 (条 件 ) 概率 密度 函数 fxjy (zx|y). 
例 3.16 一 辆 汽车 正在 通过 交通 测速 雷达 , 汽车 的 车 速 是 一 个 随机 变量 X. 通常 
假定 X 是 一 个 指数 随机 变量 , 其 平均 值 为 每 小 时 50 英里 . 而 测速 雷达 的 测量 值 了 
是 带 有 误差 的 . 测量 误差 为 正 态 随机 变量 , 其 均值 为 0, 标准 差 为 车 速 的 1/10. X 
和 YY 的 联合 概率 密度 函数 是 什么 ? 

根据 题 意 , X 的 边缘 概率 密度 函数 为 


Jj(/50)e-*/50， 车 z>0 
0 由 其 他 


而 对 于 固定 的 X = z, 测量 值 Y 的 条 件 概率 密度 函数 为 正 态 概率 密度 函数 , 其 期 
望 为 z, 方差 为 z2/100. 这 样 


e 一 (一 z) ”1(2z2/1100) 


1 
frix(ylx) = Va 0) 
从 而 , X 和 YY 的 联合 概率 密度 函数 为 
jxr(tzg) = fx(z)fy|x(y|z) 


区 10 e502) /2 若 z> 0,y € (~00,00), 


50 V2nz 
0， 其 他 . 


以 另 一 个 随机 变量 为 条 件 的 条 件 概率 密度 函数 
设 并 和 了 为 联合 连续 的 随机 变量 , 其 联合 密度 函数 为 fx,y. 
。 久 和 YY 的 联合 、 边 缘 和 条 件 概率 密度 函数 是 相互 关联 的 . 它们 的 关系 用 
下 面 的 公式 表示 
fx,Y (7,y) = fy (yfxly (zx|y), 


tx®)= fri (alay. 


条 件 概率 密度 fxiy (zly) 只 在 集合 {y|fy(y) > 0} 上 有 定义 . 
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。 关于 条 件 概率 , 我 们 有 


P(X € AlY = 要 = 上 fxly (zly)dr. 


对 于 多 个 随机 变量 的 情况 , 其 推广 是 很 自然 的 . 例如 可 定义 如 下 的 条 件 概率 密 
度 : 


fx,rlz (7,Yy|z) = rz 对 一 切 fz(z) > 0 成 立 ， 


fxlY,z(7x|y, 2) = 2, 对 一 切 fy,z(y,z) > 0 成 立 . 


对 于 密度 函数 , 相应 的 乘法 规则 也 是 成 立 的 : 

fxY,2(7,Yy,2) = fxly,z (Ty, 2)fy|z(y|2)fz(2). 
本 节 中 的 其 他 公式 , 也 可 推广 到 多 个 变量 的 情况 . 
3.5.3 ”条 件 期 望 


对 于 连续 随机 变量 X, 给 定 事件 4 的 条 件 期 望 EIX|4] 的 定义 与 无 条 件 期 望 
的 定义 相似 , 不 过 现在 我 们 利用 条 件 分 布 密度 函数 fxia 来 定义 . 类 似 地 , 条 件 期 望 
E[X|Y = 是 通过 条 件 概率 密度 函数 fxly 进行 定义 的 . 关于 期 望 的 各 种 性 质 可 以 
原封 不 动 地 搬 到 条 件 期 望 中 来 . 要 注意 的 是 , 此 处 所 有 的 公式 与 离散 情况 的 公式 是 
完全 相似 的 , 只 是 将 离散 情况 下 的 求 和 号 变 成 积分 号 , 分 布 列 改 成 概率 密度 函数 . 


条 件 期 望 性 质 的 小 结 
记 和 和 了 了 为 联合 连续 的 随机 变量 , 4 是 满足 P(4) > 0 的 事件 . 
。X 在 给 定 事件 4 之 下 的 条 件 期 望 由 下 式 定义 


EIXI = 人 zjxla(zjdz， 
给 定 工 =2 之 下 的 条 件 期 望 由 下 式 定义 
EIXIY = 引 = 人 zjxiv(zly)dz， 
。 期 望 规则 仍然 有 效 : 


BlgCX)M = 人 sjxlatajda 


por = = 人 glo)fxiy (rly)dz. 
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。 全 期 望 定理 : 设 41, 42,… , hn 为 互 不 相 容 的 n 个 事件 , 对 每 个 i,P(Ai) > 
0, 并 且 这 些 事 件 形成 样本 空间 的 一 个 分 割 . 则 


EIX] = > P(A)ELX|A]. 


i=1 


相似 地 ， ， 
ELX] = 人 EIXIY = yfy(y)ay. 


。 涉及 几 个 随机 变量 的 函数 的 情况 , 具有 完全 相似 的 结果 . 例如 


Elg(X, Y)Y = = / G(X,Y)fxiy (zl)dz, 


Elg(X,Y)] = / Elo(X, YY = yfy (yay. 


关于 期 望 规则 的 证 明 与 无 条 件 期 望 规则 的 证 明 完 全 相同 , 在 此 不 予 重复 论证 . 
现在 我 们 验证 全 期 望 定 理 . 对 于 第 一 个 公式 , 利用 全 概率 公式 


jx(z) = > P(Ai)fxla(z), 
1 一 1 


在 两 边 乘 x, 然后 在 (-co, ceo) 上 积分 , 便 得 到 第 一 个 全 期 望 定理 的 公式 . 
关于 全 期 望 定理 的 第 二 个 公式 , 可 从 下 面 一 系列 等 式 得 到 : 


/. ELIXIY = yfr(y)dy = 三 广 zjxrrleloaz| 户 (0dy 
-万 记 arenmonaaa 


= / / zfxy (zy)dzdy 


= 三， 广 xlo)dy| dz 
- 三 zfx(z)dz 


= EIX]. 


全 期 望 定 理 可 用 于 随机 变量 的 期 望 、 方 差 和 和 各 阶 矩 的 计算 . 
例 3.17 (阶梯 形 概率 密度 函数 的 均值 和 方差 ) ”假定 X 的 概率 密度 函数 为 下 列 的 
阶梯 函数 
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1/3， 着 0 乏 z 忒 1 
jx(z)=42/3， 若 1<zs&2， 
0， ”其 他 ， 
( 见 图 3.18). 现在 记 
Ai = {X 落 入 第 一 个 区 间 [0, 1]}，, 


hz = {X 落 入 第 二 个 区 间 (1,2]}. 1 2 2 
图 3.18 例 3.17 中 的 阶梯 形 概率 
利用 X 的 概率 密度 函数 , 得 到 密度 函数 


1 2 
P(41) = [ fx(z)dz = 了 P(42) = / fx(z)dz = 5. 


此 外 , 我 们 还 可 以 利用 X 的 条 件 概率 密度 函数 计算 X 在 A1 和 A 之 条 件 下 的 均 
值 和 二 阶 矩 . 由 于 /xia 和 fx|4, 都 是 均匀 概率 密度 函数 , 从 例 3.4 的 结论 可 知 ， 


1 3 
1 7 
E[X?2|Ai] = 了 E[X?|A2] = 3 


现在 利用 全 期 望 定理 , 得 到 


E[X] = P(A1)E[X|A1] + P(A2)E[X|A2] = 3 . 3 + 2 3 7 
ED] = P(A)ELX"AN] 二 PC4a)ELX2l4a] = 3.3+3.3= 3. 
X 的 方差 为 
var(X) = ED (EIX]?= 字 -人 = 品 . 


本 例 的 方法 可 以 推广 到 多 于 两 段 的 阶梯 形 概 率 密度 函数 的 期 望 和 方差 的 计算 . 口 
3.5.4 独立 性 


与 离散 的 情况 完全 相似 , 若 X 和 了 为 联合 概率 密度 函数 是 它们 各 自 的 边缘 概 
率 密度 函数 的 乘积 , 即 


fxY(z,y) 二 fx(7)fy(Yy)， 对 一 切 z,y 成 立 . 


则 称 X 和 了 相互 独立 . 比较 公式 fx,y(z,y) = fxiYy(z|y)fy(y) 可 知 , 独立 性 条 件 
与 下 式 是 等 价 的 : 


fxly (zly) = fx(z)， 对 一 切 > 和 满足 fy(y) > 0 的 y 成 立 . 
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基于 对 称 性 , 下 列 条 件 也 与 独立 性 条 件 等 价 ; 
请 xlylz) = 应 (Y)， 对 一 切 y 和 满足 fx(z) > 0 的 z 成立, 


自然 地 , 两 个 随机 变量 的 相互 独立 性 的 概念 可 以 推广 到 多 个 随机 变量 相互 独立 性 . 
例如 设 X,Y 和 2 为 三 个 联合 连续 的 随机 变量 . 车 它们 的 联合 密度 函数 具有 下 面 
的 表达 式 

fx,y,z(7,Y,2) = fx (2)fy(y)fz(z), 对 一 切 z,y,z 成 立 ， 


则 称 它们 是 相互 独立 的 . 
例 3.18 (独立 的 正 态 随 机 变量 ) ” 设 X 和 Y 是 相互 独立 的 正 态 随机 变量 , 其 期 望 
和 方差 分 别 为 so, py 和 02,02. 它们 的 联合 分 布 密度 函数 为 


了 — ju)? 
fx,Y (TY) = fx(z)fy(y) = 远志 exp 人 - 往 和 他 一 也 |} 

联合 分 布 密度 函数 的 形状 像 一 口 钟 , 但 是 这 口 钟 不 是 圆 形 的 钟 , 在 > 轴 和 y 轴 方 向 

上 的 宽度 分 别 与 cx 和 oy 成 正比 . 为 了 对 密度 函数 有 一 个 直观 的 了 解 , 我 们 考虑 这 

口 钟 的 等 高 线 , 即 z,y 平面 上 , 密度 函数 等 于 某 个 常数 的 点 的 集合 . 这 些 等 高 线 可 

以 由 下 列 方程 表示 : 


(zx 5 十 (y 埃 二 常数 . 
这 些 等 高 线 都 是 以 (jz, pw) 为 中 心 的 椭圆 , 并 且 分 别 以 > 办 和 y 轴 为 长 轴 和 短 轴 
( 见 图 3.19). 哪个 轴 为 长 轴 , 要 看 cx 和 cy 的 大 小 . 口 


图 3.19 相互 独立 的 正 态 随机 变量 X 和 了 的 联合 密度 函数 的 等 高 线 , 分 布 的 期 望 和 方差 分 别 
为 Hz, Hy 和 02,02 


车 XX 和 YY 相互 独立 , 则 任何 两 个 形 如 {Xe 4} 和 {Y e B} 的 事件 是 相互 独 
立 的 . 事实 上 
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P(xeA 和 YeB)= | 


/ fx,r (rx, ydydz 
XEA JyEB 


- 人 , / ,fx (ofy (Wdyde 


- [ xjdz / ,fr (Way 
= P(X € A)P(Y € 8B). 


特别 地 , 独立 性 蕴涵 
Fxy(zy) =P(X < zy < =P(X < 7)PY <Y) = Fx(r)Fy(y). 
这 些 结论 的 相反 的 结论 也 是 成 立 的 , 见 本 章 末 尾 的 习题 . 性 质 
Fx,y (zy) = Fx(T)FY(y) Vz,y 


可 以 作为 两 个 随机 变量 相互 独立 的 一 般 定义 , 即使 是 X 为 离散 , Y 为 连续 的 情况 ， 
这 个 定义 也 是 适用 的 . 
相似 于 离散 的 情况 , 可 以 证 明 : 若 X 与 了 相互 独立 , 则 对 任意 函数 g 和 ,下 
式 成 立 ; 
Elg(X)h(Y)] = Elg(X)EIh(Y). 
最 后 , 独立 随机 变量 之 和 的 方差 等 于 它们 的 方差 之 和 . 


连续 随机 变量 的 相互 独立 性 
令 关 和 YY 为 联合 连续 的 随机 变量 . 
。 车 下 列 条 件 


fxY(z,y) = fx(7)fy(y)， 对 一 切 x,y 成 立 ， 


则 革 和 和 YY 相互 独立 . 
e 若 X 和 了 相互 独立 , 则 


EIXY] = E[XIE[Y|. 
。 对 任意 函数 9 和 hh, 若 g(X) 和 h(Y) 相互 独立 , 则 
Elg(X)h(Y)] = Elg(X)ELACYN. 


。 若 匀 和 YY 相互 独立 , 则 


var(X+Y)= var(X)+var(Y). 
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3.6 ”连续 贝 叶 斯 准则 


在 许多 实际 问题 中 , 我 们 会 遇 到 未 观察 到 的 对 象 . 用 一 个 随机 变量 X 代表 这 
种 未 观察 到 的 量 , 设 其 概率 密度 函数 为 fx (x). 我 们 能 够 观察 的 量 是 经 过 燥 声 干扰 
的 量 Y, Y 的 分 布 律 是 条 件 分 布 律 , 其 条 件 概率 密度 函数 为 fy|x(ylz). 当 Y 的 值 
被 观察 到 以 后 , 它 包含 X 的 多 少 信息 呢 ? 这 类 问题 与 1.4 节 处 理 的 推断 间 题 类 似 ， 
在 1.4 节 , 我 们 用 贝 叶 斯 公式 解决 推断 问题 ( 见 图 3.20). 现在 唯一 的 不 同 之 处 是 我 
们 处 理 的 是 连续 随机 变量 . 


frx(y®) fa -2|Y) 


图 3.20 推断 问题 的 框图 . 我 们 有 一 个 未 观察 到 的 随机 变量 XX, 其 概率 密度 函数 fx 是 已 知 的 ， 
同时 我 们 得 到 一 个 观察 随机 变量 Y, 其 条 件 概率 密度 函数 为 fyjx (y|zx). 给 定 Y 的 观 
察 值 y, 推断 问题 化 解 成 条 件 概率 密度 函数 fxly (zx|y) 的 计算 问题 


注意 ， 当 观察 到 事件 Y = y 以 后 , 所 有 的 信息 都 包含 在 条 件 概率 密度 函数 
fxlY (zxly) 中 . 现在 只 须 计算 这 个 条 件 概 率 密度 函数 . 利用 公式 fx fyjx = fx,y = 
诺 fxlY 可 以 得 到 
jxz)Ax(ylz) 

fy(y) l 
这 就 是 我 们 所 求 的 公式 . 与 之 等 价 的 表达 式 为 


fx(z)fylx (yz) 
fxlY (ely) = 记 fx (tfyix (ylt)dt 


例 3.19 通用 照明 公司 生产 一 种 灯泡 , 已 知 其 使 用 寿命 Y 为 指数 随机 变量 , 其 概 
率 密度 函数 为 ey,y > 0. 按 过 往 经 验 , 在 任意 给 定 的 一 天 参数 和 实际 上 是 一 个 
随机 变量 , 其 概率 密度 函数 为 区 间 [1,3/2] 上 的 均匀 分 布 . 现在 取 一 只 灯泡 进行 试 
验 , 得 到 灯泡 的 寿命 数据 . 得 到 数据 以 后 , 对 于 和 的 分 布 有 什么 新 的 认识 ? 

我 们 将 看 成 一 个 随机 变量 A, 作为 对 和 的 初始 认识 , A 的 概率 密度 函数 是 


N=2, 1<A<3/2. 


当 得 到 数据 y 以 后 , 关于 A 的 信息 包含 于 条 件 概 率 密度 函数 fa,y(Aly) 中 , 利用 连 
续 贝 叶 斯 准则 , 得 到 


fxlY (zly) = 


yO = OAD -22e 1< A 和 <3/2. 口 


及 四 请 Ad 2 2te-tydt 
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3.6.1 ”关于 离散 随机 变量 的 推断 


在 实际 问题 中 , 未 观察 到 的 随机 变量 可 能 是 离散 的 随机 变量 . 例如 , 在 通信 和 问 
题 中 传输 的 信号 是 一 个 二 进 制 的 信号 , 经 过 传输 以 后 , 混入 的 噪声 是 正 态 随机 变量 ， 
这 样 , 观测 到 的 随机 变量 就 是 连续 的 随机 变量 ; 或 者 在 医疗 诊断 中 , 我 们 观察 到 的 
量 是 也 是 连续 的 测量 值 , 例如 体温 或 血液 样本 中 的 指标 . 这 种 情况 下 我 们 需要 将 贝 
叶 斯 准则 作 适 当 的 改变 . 
现在 我 们 研究 一 种 特殊 情况 , 未 观察 到 的 是 一 个 事件 4. 我 们 不 知道 4 是 否 
发 生 了 . 事件 4 的 概率 P(4) 是 已 知 的 . 设 Y 是 一 个 连续 的 随机 变量 , 并 且 假 定 条 
件 概 率 密度 函数 fyj4(y) 和 fyjac(y) 是 已 知 的 . 我 们 感 兴趣 的 是 事件 4 的 条 件 概 
率 P(A|Y = y). 这 个 量 代 表 得 到 观察 值 y 以 后 关于 事件 4 的 信息 . 
由 于 事件 {Y = y} 是 一 个 零 概率 事件 , 我 们 转 而 考虑 事件 {y < Y < y+ 引 , 其 
中 6 是 一 个 很 小 的 正 数 , 然后 令 5 趋向 于 0. 利用 贝 叶 斯 准则 , 并 令 fy(y) > 0, 我 
们 得 到 
P(AY = EP(Ay < Y < y+ 
_ P(A)PWYW &<Y < y+dA) 
PW <Y SYy+d6) 
~ P(A)fyla(Wo 
fre 
_ P(A)fyla(y) 
f(y) 
利用 全 概率 公式 , 可 将 上 式 的 分 母 写 成 


fy(y) = P(A) fyIa(y) + P(A)fyIae(W); 


这 样 , 得 到 po 
P(A)fyla(ly 
P(AY = 9) = BO Fy) FT POA Fc) 
现在 令 事件 4 具有 形式 {N ~ 由, 其 中 N 是 一 个 离散 随机 变量 ,代表 未 观察 
的 随机 变量 . 记 pw 为 N 的 分 布 列 . 令 Y 为 连续 随机 变量 , 对 任意 N 的 取 值 了 
具有 条 件 概率 密度 函数 yjw(yln). 这 样 上 面 的 公式 变 成 


PV = = = ny. 


利用 下 面 的 全 概率 定理 
fy(y) = 2_ PN (frin(yli), 
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得 到 
PN(n)fyn(y|n) 
P(N=nY = 1 = 一 一 一 一 一 一 . 

( ] 2 Pn fyin (yli) 
例 3.20 (信号 检测 )” 设 5 是 一 个 只 取 两 个 值 的 信号 . 记 P(S =1)=p 和 P(S = 
一 1) = 1 一 p. 在 接收 端 , 得 到 的 信号 为 了 = N 十 5, 其 中 NN 是 一 个 正 态 噪 声 , 期 望 
为 0, 方差 为 1, 并 且 与 5 相互 独立 . 当 观 察 到 的 信号 为 y 的 时 候 , S = 1 的 概率 是 
多 少 ? 

对 于 给 定 的 5S = s, Y 是 一 个 正 态 随机 变量 , 期 望 为 s, 方差 为 1. 应 用 刚才 得 
到 的 公式 


-了 (GD272 


yD) 
OWT jy a Dr 
V 殉 
将 上 式 简化 得 
pey 
P(S=1|Y =y)= 


pey + (1 ~ pe 


注意 , P(S =1|Y = 共 当 y -oo 时 趋 于 0, 当 y oo 时 趋 于 1 y 在 实数 轴 上 变 
化 时 , P(S = 1|Y = 切 是 y 的 严格 上 升 函数 , 这 符合 直观 的 理解 品 


3.6.2 ”基于 离散 观察 值 的 推断 


与 前 面 的 情况 相反 , 现在 观察 值 是 离散 的 . 我 们 可 以 反 解 前 面 的 关于 P(4|Y = 
y) 的 公式 , 得 到 


fa) = A 三 幼 
其 相应 的 等 价 的 表达 式 为 


fa(WP(AIY = 切 


fyja(y) = . 
人 fy (P(AIY = dt 


这 个 公式 可 以 用 于 对 Y 的 推断 . 当 事 件 4 发 生 的 时 候 , 全 部 关于 Y 的 信息 都 包含 
在 这 个 条 件 密度 中 . 当 事 件 4 具有 {N = n} 的 形式 的 时 候 , 可 以 得 到 相应 的 公式 ， 
其 中 N 是 一 个 观察 到 的 高 散 随 机 变量 , 该 离散 随机 变量 在 条 件 概率 pyjy(n/y) 下 
依赖 于 YY. 


160 第 3 章 一 般 随 机 变量 


[连续 随机 变量 的 贝 叶 斯 准则 
令 Y 为 连续 的 随机 变量 . 
。 若 X 为 连续 随机 变量 , 我 们 有 


xlyr(z 轨 让 (人 = fx(r)fyx(y|z), 


和 
fx(z)fyix(yz) fx(z)fylx(y|?) 


fxlY (x|y) = 六 一 广 pO po ta 
。 若 入 为 离散 随机 变量 , 我 们 有 
fr (P(N = nlY = 9) = pn(n)fyln (yn), 
得 到 的 贝 叶 斯 公式 为 


_ PN(n)fyln (yn) PN(n)fyIN (yn) 
TO 


和 


(WP(N=nY = FWP =nlY = 
pn (n) [2 fr OP(N = nlY = tdt 


。 对 于 事件 4, 关于 P(AlY =9) 和 frIsa(y) 具有 类 似 的 贝 叶 斯 公式 . 


fyln(y|n) = Y 


3.7 “小 结 和 讨论 


通常 用 概率 密度 函数 来 刻画 连续 随机 变量 .连续 随机 变量 的 概率 密度 函数 用 
于 计算 由 随机 变量 刻画 的 事件 . 概率 密度 函数 与 离散 情况 下 的 分 布 列 的 作用 完全 相 
同 , 唯一 的 区 别 是 计算 概率 的 时 候 , 它 使 用 积分 计算 , 而 离散 的 情况 下 使 用 求 和 进 
行 计算 . 联合 概率 密度 函数 的 作用 与 离散 情况 下 的 联合 分 布 列 一 样 , 均 用 于 计算 由 
多 个 随机 变量 刻画 的 事件 的 概率 . 条 件 概率 密度 函数 用 于 计算 给 定 条 件 随 机 变量 的 
值 的 情况 下 的 条 件 概率 . 条 件 概率 的 一 个 重要 的 应 用 是 推断 间 题 . 本 章 介 绍 了 各 种 
各 样 的 用 于 推断 的 贝 叶 斯 准则 . 

在 概率 模型 中 , 有 许多 十 分 重要 的 连续 随机 变量 .本 章 介绍 了 几 个 分 布 , 并 且 
在 下 面 列 出 了 它们 的 重要 的 特性 指标 : 期 望 和 方差 . 


连续 随机 变量 的 某 些 结果 
[a, 5] 上 的 连续 均匀 随机 变量 


i 车 a zx<b, 
fx(7) = 949-4 
0 


半 
位 
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本 章 也 引入 了 分 布 函数 的 概念 . 分 布 函数 可 以 刻画 一 般 的 随机 变量 , 它 涵盖 了 
连续 和 离散 的 随机 变量 , 也 可 用 于 刻画 既 非 连续 又 非 离散 的 随机 变量 . 因此 分 布 函 
数 的 概念 更 加 一 般 . 在 离散 的 情况 下 , 我 们 可 将 分 布 函数 进行 差分 , 得 到 分 布 列 ; 在 


连续 情况 下 , 将 分 布 函数 微分 , 得 到 概率 密度 函数 . 


习 ”是 
3.1 节 ”连续 随机 变量 和 概率 密度 函数 
1. 设 XX 为 区 间 [0,1] 上 的 均匀 分 布 的 随机 变量 . 考虑 随机 变量 Y = g(X), 其 中 


四 1， 若 z 世 1/3， 
TXT) 二 
9 2， 若 z > 1/3. 


首先 求 出 了 的 概率 密度 函数 , 然后 利用 期 望 的 计算 公式 求 出 Y 的 期 望 ,用 期 望 规则 验 


证 计算 结果 . 
2. 拉 普 拉 斯 随机 变量 . 设 X 的 概率 密度 函数 为 
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产 四 = Se 


其 中 和 为 分 布 的 正 参数 . 验证 fx 的 归 一 化 条 件 , 并 计算 X 的 均值 和 方差 . 
3.” 对 于 离散 或 连续 随机 变量 X, 证 明 下 式 成 立 
E[X|] = 广 P(X > zx)dz 一 广 P(X < 一 zZ)dz. 
0 0 


解 ” 先 假定 X 是 连续 随机 变量 . 我 们 有 


/px>adz- 人 ( /zway dz 
-人 (/ tx)ae) dy 
=- 人 fx (f a) dy 


一 / yfx (ydy, 


其 中 第 二 个 等 式 是 交换 积分 次 序 的 结果 , 在 交换 次 序 的 过 程 中 利用 了 集合 等 式 {(z,g)|0 < 


Tz <o0,7 E&Y < 0)}= {7 < 7 Ky,0 <Yy < 0}. 类 似 地 , 可 以 证 明 
oo 0 
/ P(X < -zj)dz = -/ yfr (y)dy. 
0 一 oo 


利用 两 个 等 式 , 可 以 得 到 所 需 的 结果 . 
其 次 , 设 区 是 离散 随机 变量 , 此 时 


/PCe>aaz=- 人 (Zr )) 


y>I 


-ro 


y>0 


= 2 7x) (fF dr ) 


= >》 ypx(y) 


y>0 


其 余部 分 的 证 明 与 连续 情况 完全 相似 . 
4.* 证 明 下 列 期 望 规 则 ; 
Be) = 人 s(o)jxtz)dr， 
其 中 fx (z) 是 连续 随机 变量 X 的 概率 密度 函数 
解 ”将 函数 g 写成 两 个 非 负 函数 的 差 


g(z) = 9 (2) —g (2), 
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其 中 gt (x) = max{g(z),0}, g“(z) = max{ 一 g(z),0}. 对 于 上 > 0,9g(z) >t 与 gt+(z) >t 
是 等 价 的 . 

现在 利用 习题 3 的 结果 

Blo(X) = 人 PCO > Dat— / © P(g(X) < -bd 

上 式 右 边 的 第 一 项 等 于 

™ 二 ” 一 十 zr)dz. 

| 人 fx (dedt /. 人 六 人 ictaz / 9 国产 加 
利用 对 称 性 , 右边 的 第 二 项 有 
[ P(g(X) < —t)dt = 三 g (x)fx(z)dz. 
0 一 ooe 

将 两 个 结果 合并 , 得 到 


Elg(X)] = / ~ gr(z)fx(z)dz — / ~ g_(z)fx (2)dz = 人 ~ glz)fx(z)dz. 


节 ”分布 函 数 


.按照 均匀 分 布 律 , 在 一 个 三 角形 中 随机 地 取 一 个 点 . 设 已 知 三 角形 的 高 , 求 这 个 点 到 底 边 


的 距离 X 的 分 布 函数 和 概率 密度 函数 . 


. 简 去 银行 取款 , 有 1 个 或 0 个 顾客 在 她 前 面 , 这 两 种 情况 是 等 可 能 的 . 已 知 一 个 顾客 的 


服务 时 间 是 一 个 指数 随机 变量 , 参数 为 和 . 简 等 待 时 间 的 分 布 函数 是 什么 ? 


， 艾 温 在 进行 投 飞 标 游戏 , 飞 标的 靶 是 一 块 半径 为 7 的 圆 板 . 记 X 为 飞 标的 落 点 到 靶 心 的 


距离 . 假定 落 点 在 靶 板 上 均匀 地 分 布 . 

(a) 求 出 X 的 概率 密度 函数 、 均 值 和 方差 

(b) 靶 上 画 了 一 个 半径 为 t 的 同心 圆 ， 若 X < 艾 温 的 得 分 为 8 二 1/X, 其 他 情况 
5 = 0. 求 出 8 的 分 布 函数 ，5 是 不 是 连续 随机 变量 ? 


设 Y 和 2 是 两 个 连续 随机 变量 . 随机 变量 X 以 概率 p 等 于 Y, 以 概率 1 一 p 等 于 2. 


(a) 证 明 的 概率 密度 函数 为 
fx(7)= pfy(z) + (1 —p)fz(z). 
(b) 求 出 双边 指数 随机 变量 的 分 布 函数 , 双边 指数 随机 变量 的 概率 密度 函数 为 
入 了 
Po- ) 若 z<0， 
(1 一 2D)Xe->s， 若 zy>0， 


其 中 入 > 0,0<Pp< 1. 
混合 随机 变量 ， 有 时 候 , 一 个 概率 模型 可 以 看 成 一 个 离散 随机 变量 Y 和 一 个 连续 随机 变 
量 2 的 混合 . 例如 , X 以 概率 p 取 Y 值 , 以 概率 1-p 取 2 值 . 这 样 , 称 X 为 混合 随机 
变量 , 利用 全 概率 公式 可 得 到 X 的 分 布 函数 
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Fx (7x) 二 P(X < Z) 
pp(Y < o)+(1— PP(Z < a) 
= pFy(z)+ (1—p)Fz(z). 


通过 全 期 望 定理 , 可 求 得 X 的 期 望 值 
EIX] = pEIY]+ (1 ~ P)EI2]. 

艾 尔 家 附近 有 一 个 公共 汽车 站 和 一 个 出 租 汽车 站 ,两 个 站 是 在 一 起 的 ， 艾 尔 出 门 的 
时 候 , 若 车 站 有 出 租车 等 着 (这 种 机 会 的 概率 为 2/3),， 他 就 上 出 租车 ; 不然 他 就 在 站 上 等 
车 , 来 出 租车 就 上 出 租车 , 来 公共 汽车 就 上 公共 汽车 , 先 到 先 上 ， 已 知 出 租车 将 在 0~10 
分 钟 内 到 达 , 等 待 时 间 是 在 (0, 10) 分 钟 之 间 均 匀 分 布 的 ， 而 等 待 下 一 趟 公共 汽车 的 时 间 
是 5 分 钟 . 求 艾 尔 等 待 时 间 的 分 布 函数 和 期 望 值 ， 

解 ” 记 4 表示 当 艾 尔 到 达 车 站 的 时 候 有 -- 辆 出 租车 等 着 他 或 者 他 在 车 站 上 等 5 分 钟 以 
后 , 登 上 公共 汽车 . 当 艾 尔 必须 等 车 的 条 件 下 ， 艾 尔 登 上 公共 汽车 的 概率 为 
P( 出 租车 在 5 分 钟 后 到 达 ) = 1/2. 
艾 尔 的 等 车 时 间 X 是 一 个 混合 随机 变量 .以 概率 
2 1 1 5 
I++ 
等 于 离散 随机 变量 Y( 相 当 于 或 者 出 租车 在 站 上 等 着 或 者 登 上 公共 汽车 ). Y 的 分 布 列 为 


[通过 下 列 计算 得 到 py (0) 的 值 ; 


P(Y=0,4A) 2 
P(A) ~ 3P(A) 


py(5) 的 计算 是 类 似 的 . ] 与 概率 1 - P(4) 相对 应 的 随机 变量 Z( 相 应 于 到 达 车 站 以 后 ， 
必须 等 车 , 但 5 分 钟 以 前 到 达 一 辆 出 租车 ) 的 分 布 密度 为 


fz) = 人 车 0<z<5, 


py(0) =P(Y =0|4) = 


0, 其 他 . 
这 样 , X 的 分 布 函数 Fx (z) = P(A)Fy(z) 十 (1 一 P(A4))Fz(z) 由 下 式 给 出 
0， 车 xz <0， 
Fx (7) = 2 了 5 车 0<z<5, 


10. 


闫 
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艾 尔 的 平均 等 车 时 间 为 
-5.3.5+1.5_ 巧 

6 15 6 3 一 到 
模拟 一 个 连续 随机 变量 。 计算 机 有 一 个 产生 [0, 1] 上 均匀 分 布 的 随机 变量 U. 利用 这 个 
程序 可 以 产生 一 个 连续 随机 变量 X, 而 XX 的 分 布 函数 为 F(z). 设 U 产生 一 个 数 v, 相 
应 X 的 取 值 x 为 满足 方程 F(z) = w 的 解 . 为 简单 起 见 , 我 们 假定 分 布 函数 F(x) 在 
S == {zl0 < F(z) < 1} 上 严格 上 升 . 这 个 假定 条 件 可 以 保证 对 每 一 个 ve (0, 1), 唯一 地 
对 应 一 个 z, 使 得 F(x) = 公 
(a) 证 明 如 此 生成 的 义 , 其 分 布 的 确 为 给 定 的 F(z). 
(b) 利用 这 种 方法 模拟 产生 一 个 指数 随机 变量 , 其 参数 为 入 . 
(c) 如 何 利用 这 种 方法 模拟 产生 一 个 离散 的 整数 值 随机 变量 ? 
解 
(a) 根据 产生 规则 , X 和 5 应 该 满足 关系 式 F(X) = U. 由 于 F 是 单调 的 , 对 每 一 个 z 

的 值 ， 


ELX] = P(A)E[Y] + (1 — P(A4))E[2] 


X < zx 的 充 要 条 件 为 ”F(X) < F(z). 
这 样 
P(X & x)=P(F(X) & F(x)) =P(U & F(x)) = F(z). 

上 式 的 最 后 一 个 等 式 是 利用 了 U 是 一 个 均匀 随机 变量 的 特性 . 这 样 X 的 分 布 函数 
就 是 事先 确定 的 F(X). 
指数 分 布 具 有 形式 F(z) = 1 - e-**,z > 0， 为 生成 X, 首先 产生 一 个 单位 区 间 
(0, 1) 上 的 均匀 随机 变量 U 的 一 个 值 w. 之 后 只 需 解 方程 1 ~ er-x= = u. 这 个 方程 
的 解 为 z= 一 In(1 一 ww/A.? 
(c) 设 下 是 高 散 的 取 整 数值 的 随机 变量 的 分 布 函 数 .对 于 每 一 个 ve (0, 1), 存在 唯一 

的 一 个 整数 ru, 满足 F(zw 一 1) < U < F(zu). 这 相当 于 定义 了 随机 变量 U 的 一 

个 函数 X. 对 每 一 个 整数 ， 


(b 


_— 


P(X=k)=P(F(k-1)<U SF(k)) = F(k) -FP(k—1). 


如 此 构造 的 随机 变量 X 的 分 布 函数 就 是 事先 指定 的 FF. 


3.3 节 正 态 随机 变量 
11. 设 Y 和 YY 是 两 个 正 态 随机 变量 , 其 均值 分 别 为 0 和 1, 方差 分 别 为 1 和 4. 


(a) 求 P(X<1.5) 和 P(X < -1). 
(b) 求 (Y 一 1)/2 的 概率 密度 函数 . 
(c) 求 P(-1&<Y<1). 


12. 设 X 是 正 态 随机 变量 , 其 均值 为 0, 标准 差 为 o. 利用 正 态 分 布 函 数 表 计算 P(X > je) 


和 了 (XI < ko), k= 1,2,3. 


四 与 > 相应 的 随机 变量 X 的 分 布 函数 为 F(z) = 1 - e->zr,z > 0. 一 一 译 者 注 


13. 


14.” 
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15, 
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设 某 个 城市 的 气温 为 正 态 随机 变量 , 其 均值 和 标准 差 均 为 10°C、 问 在 给 定 的 时 刻 , 其 气 
温 低 于 59°F 的 概率 有 多 大 ? , 
证 明正 态 概率 密度 函数 的 归 一 化 性 质 ， 提示 : 积分 /。 e-s?/adz 的 值 等 于 积分 


oo Ce 
/ / ee- /26-9 /2dzdy 
一 co v 一 co 


的 平方 根 , 而 后 面 的 积分 可 以 通过 积分 变换 化 成 极 坐标 系 内 的 积分 . 
解 ”注意 下 面 的 等 式 : 


co 2 oo 
(es) Ee er 
—o0 V2T 


Ee e-(e?+y2)/2dzdy 
一 27 


此 处 ,第 三 个 等 式 是 将 积分 变 成 极 坐标 中 的 积分 的 结果 . 第 五 个 等 式 是 作 变 量 替 换 v = 
r2/2 的 结果 . 这 样 我 们 得 到 


Co 1 _z2/2 
——e dz =1. 
三 V 2 


现在 利用 变量 替换 wv = (zx 一 0)/o, 得 到 


~ 1 (mayac3) > 1 uw/2 
/ fx (x)dz = / e + dz = / 一 一 e du =1. 
一 co _oo V2TC -oo V2T 


节 ”多 个 随机 变量 的 联合 概率 密度 


在 半圆 周 {(z,y)|z? 十 82 和 my > 0} 内 按 均匀 分 布 随机 地 取 一 个 点 (X,Y)( 此 时 7 > 0， 
是 固定 的 正 数 ). 

人 求 出 (X,Y) 的 联合 概率 密度 函数 . 

(j 求 出 Y 的 边缘 概率 密度 函数 , 并 利用 它 求 出 E[Y]， 

(iii) 不 用 边缘 概率 密度 函数 , 利用 期 望 规则 直接 计算 已 [Y]. 

考虑 下 面 的 蒲 丰 抛 针 问题 ( 例 3.11) 的 变形 , 这 是 拉 普 拉 斯 研究 过 的 问题 . 在 坐标 平面 上 
画 上 格子 , 水 平 线 之 间 的 距离 为 a, 垂直 线 之 间 的 距离 为 b. 现在 往 平面 上 丢 一 根 长 度 为 
i 的 针 , 不 妨 假定 ! < a 和 ! < 5， 成 立 . 针 与 格子 相交 的 边 数 的 期 望 值 是 多 少 ? 针 与 至 少 
一 条 边 相 交 的 概率 是 多 少 ? 


17.” 
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利用 另 一 个 随机 变量 的 样本 估计 一 个 随机 变量 的 期 望 值 . 设 页 ，… ,Y 为 来 自 概率 密度 
函数 fy 的 一 个 样本 . 令 5 为 了 的 可 能 值 的 集合 , 即 5 = {y|fy(y) > 0}. 令 久 的 概率 
密度 函数 为 fx. 假定 对 一 切 y 和 5, 均 有 fx(y) = 0. 考虑 随机 变量 


fx (Yi) 
“一 TA) 
证 明 
E[2] = E[X]. 
解 ” 我 们 有 
fx (Ys) fx(y) _ 
Bh “fy(¥) 站 和 | = /5 Y py (y) fr (y)dy = /vix(Way = E[X]. 
这 样 ， 
E[Z] = 二 2 [| 一 a De] = E[X]. 
3.5 节 ”条 件 


18. 


19. 


20. 


21. 


设 X 是 一 个 随机 变量 , 其 概率 密度 函数 为 


_ jz/4， 若 1<z<3,， 
ea- 其 他 . 


令 A= 1{X>2}. 

(a) 计算 E[X], P(A4), fx(z) 和 E[X|A4]. 
(b) 令 Y=X?. 计算 E[Y] 和 var(Y). 
设 X 是 一 个 随机 变量 , 其 概率 密度 函数 为 


四 = czZ2， 车 1<z 所 2， 
0， 其 他 . 


(a) 确定 常数 c. 

(b) 令 4={X>1.5}. 计算 P(4) 和 XX 在 4 发 生 的 条 件 下 的 条 件 概率 密度 函数 . 

(c) 令 了 = X2. 计算 了 在 4 发 生 的 条 件 下 的 条 件 期 望 和 条 件 方差 . 

一 个 粗心 的 教授 错误 地 将 两 个 学 生 的 答疑 时 间 安排 在 了 同一 时 刻 . 已 知 两 位 同学 的 答疑 
时 间 长 度 是 两 个 相互 独立 并 且 同 分 布 的 随机 变量 ， 其 共同 的 分 布 是 指数 分 布 , 期 望 值 为 
30 分 钟 . 第 一 个 学 生 按 时 到 达 , 5 分 钟 以 后 , 第 二 个 学 生 也 到 达 . 从 第 一 个 学 生 到 达 起 直 
到 第 二 个 学 生 离 开 所 需 时 间 的 期 望 值 是 多 少 ? 

我 们 从 一 根 长 度 为 1 的 杆 开 始 , 在 杆 上 按 均匀 分 布 找 一 个 点 ， 以 这 个 点 为 切断 点 , 将 杆 分 
为 两 半 . 我 们 保留 杆 的 左边 部 分 . 设 这 部 分 的 长 度 为 X. 对 于 长 度 为 X 的 这 一 根 秆 子 ， 
重复 这 一 切断 的 过 程 , 设 第 二 次 切断 后 保留 下 来 的 部 分 的 长 度 为 Y. 

(a) 求 出 X,Y 的 联合 概率 密度 函数 . 
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22. 


23. 


24. 


25. 


26.” 
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(b) 求 Y 的 边缘 概率 密度 函数 . 

(c) 利用 YY 的 边缘 概率 密度 函数 计算 E[Y]. 

(d) 利用 关系 式 Y = 六 .(Y/X) 计算 E[Y]. 

我 们 有 一 根 长 度 为 1 的 杆 , 利用 下 面 3 种 不 同 的 方法 将 秆 子 截 成 3 段 . 

(i) 利用 均匀 分 布 在 秆 子 上 随机 且 相 互 独 立地 取 两 个 点 , 在 这 两 个 点 处 将 种子 截 断 . 

(i) 首先 , 在 秆 子 上 按 均匀 分 布 随机 地 取 一 点 , 在 这 个 点 处 将 秆 子 截断 .然后 将 右 端 这 一 
截 如 法 炮制 , 还 是 按 均匀 分 布 随机 地 找 一 点 , 在 这 个 点 处 将 这 一 截 再 分 成 两 段 . 

(ii) 首先 , 在 秆 子 上 按 均匀 分 布 随机 地 取 一 点 , 在 这 个 点 处 将 秆 子 截断 . 然后 将 较 长 的 那 
一 截 如 法 炮制 , 还 是 按 均匀 分 布 随 机 地 取 一 点 , 在 这 个 点 处 将 这 一 截 再 分 成 两 段 . 

对 这 三 种 方法 的 每 种 方法 , 分 别 求 出 截 成 小 段 后 秆 子 能 组 成 一 个 三 角形 的 概率 . 

设 在 直角 坐标 系 中 三 个 点 (0,0), (0, 1) 和 (1,0) 组 成 一 个 三 角形 . 假定 (X,Y) 是 一 个 随 

机 点 的 坐标 , 这 个 随机 点 是 在 三 角形 上 均匀 分 布 的 . 

(a) 找 出 X 和 了 的 联合 概率 密度 函数 . 

(b) 找 出 Y 的 边缘 概率 密度 函数 . 

(c) 找 出 X 的 在 给 定 Y 值 之 下 的 条 件 概率 密度 函数 . 

(d) 求 出 E[X|Y = a, 利用 全 期 望 定理 求 出 E[X] 的 依赖 于 E[Y] 的 表达 式 . 

(e) 利用 对 称 性 求 出 E[X] 

设 在 直角 坐标 系 中 三 个 点 (0,0), (1,0) 和 (0,2) 组 成 一 个 三 角形 . 假定 (X,Y) 是 一 个 随 

机 点 的 坐标 , 这 个 随机 点 是 在 三 角形 上 均匀 分 布 的 (与 题 23 不 同 , 此 题 中 的 X 和 了 是 

不 对 称 的 ). 按 题 23 中 的 方法 求 出 EIX] 和 EI[Y]. 

设 平面 上 一 个 随机 点 的 两 个 坐标 为 X 和 了. 它们 是 独立 同 分 布 的 正 态 随 机 变量 , 公共 期 

望 为 0, 方差 为 o?. 已 知 这 个 点 离 原 点 的 距离 至 少 为 c. 求 和 和 Y 的 条 件 联合 概率 密度 . 

设 X1,… ,Xn 为 独立 随机 变量 序列 . 证 明 公式 


(4 


II: EX 人 ELX:] 


解 我 们 有 


= II (var(Xi) 十 (ELX:])’) 一 II (ELXi])”. 


i=1 i=1 
青 在 等 式 两 边 用 

1I (BLXi])? 
除 , 便 得 到 所 需 的 结论 . 
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27.* 以 随机 事件 为 条 件 的 多 元 随机 变量 . 设 X 和 Y 为 联合 连续 的 随机 变量 , 其 联合 分 布 密 
度 函 数 为 fx,y. 令 4 是 二 维 平面 的 一 个 子 集 , 又 令 C = {(X,Y) <s A}, 事件 C 满足 
P(C) > 0. 定义 


fx,Y (x,Y) 车 (z 切 eA 
fx,ric(z,y) = P(O) 
0, 其 他 . 
(a) 证 明 fx,ylc 是 一 个 合格 的 联合 分 布 密度 函数 . 


(b) 令 hi,i = 1,… ,n 为 二 维 平面 的 一 个 分 割 . 记 C; = {(X,Y) € 4h;}, 并 假定 对 每 一 
个 i, P(Ci) > 0. 导出 下 列 形式 的 全 概率 定理 . 


fxr (2,Y) = DP(Ci)fx,r os (7 Y). 
i=1 
28.* 设 随机 变量 X 具有 双边 指数 概率 密度 函数 


pAe™*”, 若 z>0， 
jx(z) = 
(1 一 Dp)Xexz， 若 z< 0， 


其 中 入 和 p 是 参数 , 和 > 0, p € (0, 1). 利用 下 面 的 两 种 方法 求 X 的 期 望 和 方差 : 
(a) 利用 期 望 和 方差 的 定义 直接 计算 . 

(b) 利用 全 期 望 定理 进行 计算 . 

解 

(a) 


E[X] = 三 Zjx(zZ)dr 


0 oo 
=/ z(1 — p)Ae**dz + ZDXe **dz 
一 ce 0 
1 一 2 ,Pp 
入 工人 
_ 2p—1 
= 一， 


E[IX?] = 广 Z2 jx(z)dz 


0 oo 
一 / z2(1 一 D)Xexzdz 十 / zpAe ydz 
一 oo 0 


2 一 pp) ，2p 
TT ta 


利用 方差 的 定义 , 得 到 
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(b) 记 4= {X > 0}. 利用 X 的 概率 密度 函数 的 公式 , 很 快 得 到 P(4) = p. 在 4 发 生 
的 条 件 下 , X 的 条 件 分 布 为 指数 分 布 ， 其 参数 为 和 同样 在 4* 发 生 的 条 件 下 , 随机 
变量 -X 也 具有 指数 分 布 , 参数 为 -入 . 由 此 可 得 


BIXI 同 = 六，BIXI4] = 一 


工 
XA’ 
和 
2 2| Ac 2 
EIX?|A] = EIX”|A] = 总 


再 利用 全 期 望 定理 得 到 


E[X] = P(A)E[X|A] + P(A°)E[LX|A] 
p 工 一 2 


入 入 
_ 2p—1 
= EO， 

E[X?] = P(A)E[X’*|A] + P(A°)E[X?|A°] 
2p ,2(1 —p) 

TT 
_2 
= 总 ， 


00 -总 - (如 二)” 


29.* 设 XY 和 2 的 联合 概率 密度 函数 为 fx,r~z. 证 明 乘 法 规则 : 


最 后 , 得 到 


fx,r,2(7,Y,2) = fxly,z (Tly, 2)fy1z (yz)fz(2). 
解 ” 利 用 条 件 概率 密度 函数 的 定义 ， 


fxlY,z(z|y, 2) = 站 
和 
fr,z(y,2) = frlz (yz)fz(2). 
将 两 个 关系 组 合 便 得 到 三 个 变量 的 概率 密度 函数 的 乘法 规则 . 
30.” 贝塔 概率 密度 函数 . 参数 为 w(> 0) 和 6(> 0) 的 贝塔 概率 密度 函数 为 


ll _ -1l 
fx(z) = Bl(a, O) (1 7) ? 若 0<zr< 1， 
” 其 他 . 


其 归 一 化 常数 为 ， 
Bla, 8) =/ ze 1(1 — 2) 1dz, 

0 
B(a, 6) 就 是 著名 的 贝塔 函数 . 


(a) 指出 对 任何 m > 0, XX 的 m 阶 矩 的 公式 为 


Blatm,B) 


FF 一 BID 


(b) 设 a 和 为 正 整 数 , 证 明 


(a — 1)1(8 — 1)! 


BO rp 


mm a(a+1)...(a+m—1 
BX l=- Bert (orotm-i) 
(注意 : 按 惯 例 , 0! = 1. ) 


解 
(a) 我 们 有 


1 
E[X™] = 开工 / zZmZer1(1l — £2) dz = 


B(a + m, Bb) 
B(a., D) 


Bl(a., 8) 


(b) 对 于 a = 1 或 8 = 1, 我 们 可 以 通过 直接 积分 验算 结果 . 现在 讨论 一 般 情况 . 
了 关 ,… ,Yat6 为 独立 同 分 布 的 随机 变量 , 其 公共 分 布 为 [0, 1] 上 均匀 分 布 . 令 


A={Yi&:..:<Y SY Yo sg... Yorp}. 


由 于 a 十 6 十 1 个 随机 变量 的 各 种 次 序 都 是 等 可 能 的 , 我 们 有 


1 


P= ror 


现在 考虑 事件 
B= {max{Yi,. ,Ya} <Y)}, C={Y < min{Yar... ,Yare}}. 
利用 全 概率 定理 , 得 到 
P(BnC) = P(BNCIY =Y) fy (ydy 
=/ ‘Plmax{Yiy Ya} < Y < minfYopn. ,Yor dy 
= { Pemax{h,. Yo} < WPly < min{Yarr, rod 


1 
= 人 y°(1— dy. 
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记 


由 于 给 定 和 0C 的 条 件 下 , 所 有 ol 个 区 ,Ya 和 所 有 Bl 个 Yari,… ,Yatp 


的 次 序 是 等 概率 的 , 这 样 


P(AIBNO) = a 
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现在 将 所 得 到 的 公式 代入 方程 


P(A) =P(BNO)P(AIBNO) 


中 , 便 得 到 
1 1 a 8 
或 1 
a 8 oa!lp! 
f wa y) y= TFBTy 
这 个 方程 可 写成 如 下 形式 ; 
B(a 十 B+1) = 一 2  ， 对 所 有 正 整数 w 6 成 立 . 


~ (at+B+1)! 


31.” 利 用 模拟 求 期 望 值 . 设 fx (x) 为 某 个 概率 密度 函数 , 它 满足 下 面 的 条 件 : a, be 为 三 个 非 
负数 (a < b), fx(z) 在 区 间 [o, 引 外 为 0, 并 且 满 足 zfx (x) < c 对 一 切 x 成 立 . 现在 以 
如 下 方式 产生 YY,i = 1,2,…,n: 由 (a;0),(b,0), (a,c) 和 (b,c) 4 个 点 构成 坐标 平面 上 
的 一 个 矩形 , 按 这 个 平面 上 的 矩形 的 均匀 分 布 , 产生 一 个 随机 点 列 (Vi, Wi),i = 1,… ,n, 
如 果 Wi < Vfx (WW), 令 阅 = 1, 否则 令 =0. 令 


Zt 
n 

证 明 E[X] 1 

B24] = 志和 varl2] < 去， 
特别 地 , var(Z) 一 0,n 一 co， 
解 ” 我 们 有 

E[l2Z] = E[Y] 

一 了 (下 = 了 


= P(W: < Vifx(V)) 


b pofx(v) 1 
=-/ [ cd 
b 


/ vfx(v)dv 


ob — a) 
EI[X] 
c(b—a) 


随机 变量 2 的 方差 为 


POY = DU -P(X =1)) 


var(Z) = 


由 于 P(Yi = 1)(1 ~ P(Y; = 1)) < 1/4, 我 们 得 到 var(2) < 1/(4n). 
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32.” 设 X 和 了 为 联合 连续 随机 变量 , 其 联合 概率 密度 函数 为 fx,y (zx,y). 设 对 任意 实数 子 集 
4 和 B, 事件 Xe 4 和 事件 Y e B 相互 独立 . 指出 此 时 和 和 Y 是 相互 独立 的 随机 变 
角 对 于 任意 两 个 实数 zx 和 y, 利用 事件 {X < z} 和 {Y < 好 的 相互 独立 性 , 得 到 
Fxr(z,Y)=P(X TY Y=PX & TPY gy = FEx(z)zyr(. 
对 两 边 求 导数 , 得 
fr (on) = Bo (0 0) = BE (eB) = fx (ory) 


由 上 式 可 知 , 按 随机 变量 X 和 Y 相互 独立 之 定义 , 它们 是 相互 独立 的 . 
33.” 随 机 数 个 独立 随机 变量 的 和 . 假如 你 选 了 N 个 商店 , 其 中 N 是 一 个 随机 变量 ， 又 设 在 
第 i 个 商店 , 你 花 掉 的 钱 数 是 X;. 故 你 花 掉 的 总 钱 数 为 


了 一 XI 十 Xo2 十 … 十 蕊 NV， 


我 们 假定 N 是 一 个 离散 随机 变量 , 其 分 布 列 为 已 知 , 而 X; 的 期 望 和 方差 相同 , 记 为 E[X] 
和 var(X). 进一步 假定 , 所 有 的 X; 以 及 NN 都 是 相互 独立 的 . 指出 


EIT| = E[X] .EIN] 和 var(T) = var(X)E[N] + (E[X])?var(N). 


解 ” 设 NN = 此 时 你 只 进 了 i 家 商店 , 在 每 一 家 商店 , 你 花 钱 的 平均 值 为 E[X]. 这 样 ， 
对 所 有 i 


EITIN = 1] = iE[X]. 
现在 利用 全 期 望 定理 , 得 到 


一 2 P(N = 2)EITIN = 


= PN = iiE[X 


二 1 
= E[X] > iP(N = 
= E[X] : EIN]). 
相似 地 , 由 X 之 间 的 独立 性 可 知 , E[XiX;] = (E[Xi])?, Vi 产 7. 这 样 


E[T?] = 3 P(N =i)EIT?|N = 


N =oEI(Xi + + XN)|IN = 


Il 


N=) (iB[X°] +i(i ~ 1)(ELX])’) 


和 


DD 
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= E[X?] > iP(N =i) + (E[X]) > i(i— 1)P(N=2) 


= E[X?]E[N] + (ELX])” (EIN?] — ELIN]) 
= var(X)ELN] + (ELX])ELN?. 
了 的 方差 为 
var(T) = ELT?] — (E[T))? 
= var(X)EIN] + (ELX])? EIN?] — (E[X])? (EIN])” 
= var(X)E[IN] + (E[X])? (EIN?] - (ELV])”) 
= var(X)E[IN] + (E[X])? var(N). 


注 : 在 第 4 章 中 我 们 将 以 更 抽象 的 方式 得 到 E[7] 和 var(T) 的 公式 . 
3.6 节 ”连续 贝 叶 斯 准则 


34. 一 台 有 问题 的 硬币 涛 铸 机 所 生产 的 硬币 是 有 人 缺陷 的 . 在 抛 撕 硬 币 的 试验 中 正面 出 现 的 概 
率 已 是 一 个 随机 变量 . P 的 概率 密度 函数 是 


_ jpe?，pe [0,1], 
fre(p) = 局 其 他 


现在 从 这 批 产品 中 抽取 一 枚 进行 抛掷 硬币 试验 , 进行 独立 重复 的 抛掷 
(a) 求 出 抛 扼 硬币 的 时 候 , 正面 出 现 的 概率 . 
(b) 已 知 抛掷 一 枚 硬币 后 出 现 正 面 , 求 P 的 条 件 概率 密度 函数 ， 
(c) 给 定 第 一 次 抛掷 的 结果 是 出 现 正 面 . 求 第 二 次 抛掷 硬币 的 时 候 出 现 正 面 的 条 件 概率 . 
35.” 设 X 和 YY 为 相互 独立 的 连续 随机 变量 , 其 概率 密度 函数 分 别 为 fx 和 fy. 令 2 = XX+Y. 
(a) 证 明 fzix(z|z) = 产 (z 一 2). 提示 : 写 出 给 定 X 的 条 件 下 2 的 分 布 函 数 , 然后 求 
导 


(b) 假设 X 和 YY 的 分 布 为 指数 分 布 , 其 参数 为 和 求 出 X 在 给 定 Z = z 之 下 的 条 件 
概率 密度 函数 . 


(ce) 假设 筷 和 了 的 分 布 为 正 态 分 布 , 其 期 望 为 0, 方差 分 别 为 cs 和 cy. 求 出 XX 在 给 
定 2 =z 之 下 的 条 件 概 率 密度 函数 . 
解 


(a) 我 们 有 
P(Z < zlX=7)=P(X+Y < z|X= 27) 
=P(z+Y &z|lX = 27) 
=P(z+Y < 2) 
=P(Y & z— 7), 


其 中 第 三 个 等 式 是 由 于 X 和 YY 的 独立 性 . 两 边 进行 微 商 , 可 得 所 需 的 结果 . 
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(b) 对 于 0< zx < z, 我 们 有 . 
fzlx (zz)fx (7) _ fy(z— 7)fx() 


jz 同一 0) F202) 
Ae™*(2-7) Xe 一 Xz 四 入 2e 一 Xz 
fz(z) ~ fz(z) 


由 上 述 表 达 式 可 知 , 对 固定 的 z, 作为 xz 的 函数 fxiz(zlz) 在 0<z<z 是 一 个 常 
数 , 而 在 区 间 [0, z] 外 , jxiz(z|z) 显然 为 0. 这 样 X 的 条 件 分 布 是 [0, z] 上 的 均匀 
分 布 , 即 X 的 条 件 概率 密度 函数 jJfxlz(z|z) = 1/z, x € [0, 2]. 


(c) 我 们 有 
fy(z 一 zx)fx(z) _ 1 1 —(z—%)2/202 1 一 z2/2c2 
ra 同一 0) Va J 


我 们 将 注意 力 集中 在 指数 的 寡 上 , 其 负 部 按 x 配 成 平方 , 得 到 


2 2 

(z— 2)? 十 22 oz2+o2 za? + z2 ] o2 

二 一 Z 一 -|1 一 一 一 |. 
202 202 20203 o2+o? 202 02 十 a2 


这 样 , X 的 条 件 密度 函数 具有 形式 


2 2 2 
mal) = on -Ge (=- zo2 ) } 


20202 


其 中 c(z) 不 依赖 于 zx, c(z) 在 密度 函数 中 是 一 个 归 一 化 的 平衡 常数 ， 这 样 , 条 件 分 
布 是 正 态 分 布 , 均值 


oF 
EI[X|Z = z] = 去 Fo3” 
方差 ， 
var[X|Z = z] = Oo0y 


0o2+o2 
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本 章 引 入 一 些 更 深入 的 内 容 . 我 们 介绍 如 下 一 些 有 用 的 方法 : 

(a) 推导 出 关于 一 个 或 者 多 个 随机 变量 的 函数 的 分 布 ; 

(b) 处 理 独 立 随机 变量 和 的 问题 , 包括 求 和 的 随机 变量 的 个 数目 自身 也 是 随机 
的 情形 ; 

(c) 量化 两 个 随机 变量 之 间 的 相依 程度 . 

为 实现 这 些 目标 , 我 们 介绍 了 一 些 工具 , 包括 矩 母 函数 和 卷 积 , 并 且 我 们 将 细 
化 对 条 件 期 望 概念 的 理解 . 

学 习 第 5~7 章 时 , 并 不 需要 本 章 内 容 作为 基础 , 因此 , 在 首次 阅读 本 书 时 可 将 
本 章 视 为 选读 内 容 . 然而 , 这 里 讨论 的 很 多 概念 和 方法 为 概率 论 和 随机 过 程 提供 了 
更 深入 的 研究 背景 , 并 为 应 用 概率 论 和 随机 过 程 的 其 他 学 科 提 供 了 有 力 的 工具 . 但 
是 , 4.2 节 和 4.3 节 所 提 到 的 概念 , 是 第 8 章 和 第 9 章 中 学 习 统计 推断 的 准备 知识 . 


4.1 ”随机 变量 函数 的 分 布 密度 函数 
本 节 考 虑 连续 随机 变量 X 的 函数 了 = g(X) 的 分 布 密度 函数 , 即 在 已 知 X 的 


概率 密度 函数 (PDF) 的 情况 下 , 我 们 计算 Y 的 PDF (也 称 为 导出 的 密度 函数 ). 主 
要 考虑 如 下 的 两 步 方 法 . 


连续 随机 变量 X 的 函数 了 = 9( 瑟 ) 的 分 布 密度 函数 
(1) 使 用 如 下 公式 计算 了 的 分 布 函数 (CDF) Fy 


<Yy)= d 
中 人 


(2) 对 Fy 求 导 , 得 到 了 的 PDF: 


fy(y) = Tw 


例 4.1 设 久 服从 [0,1] 上 的 均匀 分 布 , 令 Y = VX. 注意 , 对 任意 的 ye [0,1], 有 
Fy(y) =P(Y <&y)=P(VX SY =P(X gy)=. 


求 导 , 可 以 得 到 
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在 区 间 [0,1] 之 外 , 分 布 函数 Fy (y) 是 个 常数 , 即 当 y < 0 时 , Fy(y) = 0, 而 当 y>>1 
时 , Fy(y) = 1. 所 以 , 求 导 可 以 得 到 : 当 y ¢ [0,1], fy(y) = 0. 口 
例 4.2 ”上庄 驶 修 驾 车 匀速 从 波士顿 前 往 纽 约 , 两 地 距离 为 180 英里 , 速度 值 服从 
[30, 60] (单位 : 英里 / 小 时 ) 区 间 内 的 均匀 分 布 . 求 这 段 旅程 所 费时 间 的 PDF? 
设 X 是 速度 , Y = 9(X) 是 这 段 旅程 所 花费 的 时 间 : 
180 
Y= 


根据 两 步 法 , 首先 计算 Y 的 分 布 函 数 ， 


180 180 
<y)=P(—— <y)=P(— <X). 
PY < P(X ") (3 x 


利用 X 的 均匀 分 布 性 质 , 即 
六 四- (人 若 30< zx < 60， 


0， 其 他 ， 
以 及 相应 的 分 布 函数 
0， 若 TR 30， 
Fx(z) = 4 (z—30)/30， 若 30<&z < 60, 
1, 车 z > 60. 
因此 


| 

六 

| 

可 

x 
A 

上 
< | 

Lam] 
DS 4 


0， 车 y < 180/60， 

= 41 一 (这 — 30) /30， 若 180/60 < vy < 180/30， 
1, 者 y > 180/30， 
0， 若 y<3， 


| 


2 一 6/y， 若 3<yg6, 
1， 若 y> 6， 


( 见 图 4.1). 然后 , 对 上 式 进行 求 导 , 得 到 Y 的 密度 函数 : 


0， 若 y< 3， 
fr(y)= 46/y2， 若 3<y<6, 口 
0， 若 y> 6. 


CDF Fx(2) 


ODF Fy(W) 


y 


41 例 42 中 Y= 180/X 的 密度 函数 的 计算 过 程 示意 图 . 箭头 方向 表示 计算 步骤 


例 4.3 设 久 是 一 个 随机 变量 , 其 密度 函数 已 知 . 现 求 Y = g(X) = X? 的 密度 函 
数 . 对 任意 的 y > 0， 
Fy(y) = P(Y &Yy) 

= P(X? &Y) 

=P(-V SX VY 

= Fx(VY) — Fx(—VY), 
因此 , 对 上 式 进行 微分 , 运用 复合 函数 求 导 方法 ， 

1 1 


fr(y) = 33 VY 十 万 


fx(—Vy), 2 之 0. 口 
4.1.1 ”线性 函数 


现在 我 们 重点 介绍 一 类 重要 和 特殊 的 情形 : Y 是 X 的 线性 函数 . 如 图 4.2 中 
的 解释 , 从 直观 就 可 以 得 到 我 们 所 需 的 结论 . 
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42 用 X 的 密度 函数 来 表示 线性 函数 aX + b 的 密度 函数 . 图 中 a = 2, b = 5. 为 了 直观 ， 
第 一 步 , 计算 aX 的 密度 函数 . aX 的 值 域 比 X 的 值 域 大 , 倍数 为 a. 所 以 , aX 的 密 
度 函 数 fax 是 将 X 的 密度 函数 fx 在 > 轴 的 方向 上 拉 长 a 倍 . 但 是 , 为 了 使 得 aX 
的 密度 函数 fox 之 下 围 成 的 面积 是 1, 必须 将 fx 纵 轴 下 拉 到 原来 的 1/a. 随机 变量 
aX 十 b 与 aX 一 样 , 只 是 将 图 形 进行 平移 b， 因此, 我 们 首先 得 到 aX 的 密度 函数 ， 
然后 水 平平 移 b. 最 后 得 到 的 就 是 随机 变量 Y = aX + 的 密度 函数 . 写成 公式 , 就 是 


_1 y—b 
产 人 = 站 六 (她 *) 
如 果 a 是 负数 , 方法 是 一 样 的 ,只 是 先 将 X 的 密度 函数 在 横 轴 进行 反射， 得 到 


f_x. 然后 , 在 横 轴 和 纵 轴 上 分 别 乘 以 |a| 和 1/|al, 就 得 到 -olX| = aX 的 密度 函数 ， 
最 后 进行 平移 b, 就 得 到 aX + 的 密度 函数 


随机 变量 天 的 线性 函数 的 分 布 密度 函数 . 


Y=aX+b. 


fr(W) = fx (经 


现在 证 明 该 公式 , 我 们 首先 计算 Y 的 分 布 函数 , 然后 求 导 . 只 证 明 a > 0 的 情 


Fy(y) = P(Y <Y) 
= PlaX+b <Yy) 


对 上 述 等 式微 分 , 运用 复合 函数 求 导 方 法 , 可 得 
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y= = (SY) 


例 4.4 (指数 随机 变量 的 线性 函数 ) ”假设 随机 变量 X 服从 参数 为 和 的 指数 分 布 ， 
密度 函数 为 
Xe->xz， 若 zy>0， 
人 其 他 ， 
其 中 入 是 正 的 参数 . 定义 了 = aX 十 b, 则 


个 o- Xe-b/a， 车 (y—b)/a zz 0, 
fy(y) = 


fx(7) = 


lal 


0， 其 他 . 
注意 , 当 5 = 0, a > 0,Y 仍然 服从 指数 分 布 , 参数 为 和 a. 一般 而 言 ,Y 可 能 不 是 指 
数 的 . 比如 , 当 a < 0, 5 = 0 时 , Y 的 取 值 空间 在 负 实 轴 上 . 


例 4.5〈 正 态 随机 变量 的 线性 函数 ) ”假设 随机 变量 X 服从 均值 为 j, 方差 为 02 
的 正 态 分 布 , 相应 的 密度 函数 为 


fx (0) = -二 -ere-O 0 
2T0 


定义 Y = aX 十 b, 其 中 a,b 是 实数 且 o 入 0, 则 


fr (y) = 再 大 (二 


Ll (S207 
lal V2no 
1 一 到) 
vV 贡 aol” 
这 是 均值 为 a + 5, 方差 为 a20? 的 正 态 分 布 的 密度 函数 , 所 以 随机 变量 Y 是 正 态 
的 . 口 


4.1.2 ”单调 函数 


线性 函数 的 密度 函数 的 计算 方法 和 公式 可 以 推广 到 9 是 单调 函数 的 情形 . 假设 
X 是 连续 随机 变量 , 且 取 值 空间 在 一 个 给 定 的 区 间 了 工蜂, 即 当 z& 工时, fx(z) = 0. 
现在 考虑 随机 变量 Y = g(X), 且 在 区 间 7 上, 函数 9 是 严格 单调 函数 , 即 

(a) 严格 单调 递增 对 任意 的 z,z' ez 了 满足 x < zx, 则 g(x) < gf(z); 

(b) 严格 单调 递减 : 对 任意 的 zx,z'e 了 ,满足 x < zx, 则 g(x) > g(x 人 ). 

进一步 地 , 假设 g 是 可 微 的 . 它 的 导数 在 递增 情形 时 是 非 负 的 , 在 递减 情形 时 
是 非 正 的 . 
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严格 单调 函数 的 一 个 重要 性 质 是 它 是 “可 逆 的 ”, 也 就 是 说 , 存在 函数 h, 称 为 
9 的 逆 , 使 得 对 任意 的 ze I, 有 
=9(z) 当 且 仅 当 z= h(y). 


比如 说 , 例 4.2 中 考虑 的 函数 g(z) = 180/z 的 逆 就 是 h(y) = 180/y. 这 是 因为 ， 
y 二 180/z 当 且 仅 当 z = 180/y. 其 他 例子 , 比如 


g() =az+b, hy) = 0, 
其 中 ac 和 5 是 实数 , 且 a 产 0， 还 有 
9g(Z) = e"””, h(y) = Iny/a, 


其 中 a 是 非 零 实数 . 
对 于 严格 单调 函数 g, 使 用 如 下 方便 的 公式 来 计算 Y = g(X) 的 密度 函数 . 


连续 随机 变量 X 的 严格 单调 函数 Y = g( 叉 ) 的 分 布 密度 函数 计算 公式 
假设 9 是 严格 单调 函数 , 其 逆 函 数 h 满足 : 对 大 的 取 值 空间 内 任意 一 点 z， 


y 二 g(x) 当 且 仅 当 z= h(y). 
而 让 函数 hh 是 可 微 的 , 则 了 在 支撑 集 {y: fy(y) > 0} 内 的 密度 函数 是 
fr (9) = fx(h(y))|— 


Po) 


现在 证 明 上 式 . 假设 9 是 严格 递增 函数 . 则 
Fy(y) = P(g(X) < y) = P(X & h(y)) = Fx(h(y)), 


其 中 第 二 个 等 式 运用 了 函数 9 的 严格 递增 性 ( 见 图 4.3). 对 上 式 进行 微分 , 并 运用 
复合 函数 微分 公式 , 我 们 可 以 得 到 


ry) = 0) = fx(hD) 
因为 g 是 严格 递增 时 , 函数 和 所 以 它 的 导数 是 非 负 的 ， 
于 2 (y) = En ) 


这 样 , 就 验证 了 单调 递增 函数 9 的 密度 函数 公式 . 当 9 是 单调 递减 时 , 推导 过 程 是 
类 似 的 : 
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Fy(y) = P(g(X) < y) = P(X > h(y)) =1— Fx(h(y)), 
对 上 式 进行 微分 , 并 运用 复合 函数 微分 公式 就 可 以 证 得 . 


1h(W) 


LT 
事件 {X< A)} 事件 {X 之 hw)} 


图 4.3 ”计算 概率 P(g(X) < y). 当 9 是 严格 递增 的 ( 左 图 ), 事件 {g(X) < yy} 与 事件 {X < 
h(y)} 是 一 样 的 . 当 9 是 严格 递减 时 ( 右 图 ), 事件 {g(X) < 9) 与 事件 {X > h(y)} 
是 一 样 的 


例 4.2 ( 续 ) ”我 们 将 上 述 公式 , 应 用 于 例 4.2. 在 区 间 z es [30, 60] 内 , h(y) = 180/y， 
所 以 
_1 dh, ,| _ 180 


fx (hy)) = 
所 以 , 当 y e [3,6] 时 , 运用 密度 函数 公式 可 以 得 到 


六 轨 = 关 ng)| 泽 W = 这 :次 = 入 
这 个 结果 与 例 4.2 中 得 到 的 结论 是 一 样 的 0 
例 4.6 定义 了 = 9(X) = X2, 其 中 X 服从 [0,1] 区 间 的 均匀 分 布 . 在 这 个 区 间 里 
5 是 严格 递增 函数 , 它 的 送 函 数 是 h(y) = Vg. 对 任意 的 ye [0,1], 有 


所 以 
) 当 0,1 时 ， 
fy(y) 2VY ye 
0, 其 他 . 


最 后 值得 注意 的 是 , 若 用 随机 变量 落 入 小 区 间 的 概率 来 解释 密度 函数 的 意义 ， 
密度 函数 公式 变 得 十 分 直观 ( 见 图 4.4 的 解释 ). 口 
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[y, 2 十 62] 


[2z 十 本 ] 


图 4.4 对 9 是 严格 递增 函数 时 , 9(X) 的 密度 函数 公式 的 解释 . 考虑 区 间 [z,z 十 6], 其 中 6 
时 非常 小 的 正 数 . 在 映射 g 下 , 该 区 间 映 射 到 另 一 个 区 间 [y,y 十 62]. 因为 (dg/dz)(z) 
是 9 在 点 x 处 的 斜率 , 所 以 


用 逆 函 数 来 表述 , 就 是 


注意 , 事件 {z 科 和 入 z+ 人 6] 与 事件 {y < Y < y +62} 是 同一 事件 . 所 以 
fr(y6a Py SY Syt+6)=Pr < XT+6) SY 产 (z)6 
将 而 移 到 公式 的 左 端 , 并 利用 比率 62/51 的 结论 , 就 可 以 得 到 
fr (y) Ee) = fx(e). 
也 可 以 将 5 移 到 公式 的 右 端 , 并 利用 比率 5 /62 的 结论 , 就 可 以 得 到 


产 轨 = fx (Ry) 时) 


4.1.3 ”两 个 随机 变量 的 函数 

和 一 个 随机 变量 的 情形 一 样 , 我 们 采用 两 步 法 : 先 计 算 分 布 函 数 , 然后 微分 得 
到 概率 密度 函数 . 
例 4.7 在 两 个 射手 射击 同一 目标 的 游戏 中 , 假定 每 个 射手 的 弹 着 点 与 目标 中 心 的 
距离 服从 [0,1] 上 的 均匀 分 布 , 而 且 彼 此 相互 独立 . 问 失 败 者 的 弹 着 点 离 目标 中 心 
距离 的 概率 密度 函数 是 什么 ? 

设 多 和 YY 分 别 是 第 一 个 和 第 二 个 射手 的 弹 着 点 离 目 标 中 心 的 距离 . 令 Z 是 
失败 者 的 弹 着 点 离 目 标 中 心 的 距离 , 则 


Z = max{X,Y)}. 


我 们 知道 X 和 了 都 是 服从 [0, 1] 的 均匀 分 布 , 所 以 , 对 任意 的 z e [0, 1]， 
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P(X <z)=P(Y <2z)=2&. 
利用 X 和 了 的 独立 性 , 对 任意 的 z € [0, 1]， 
Fz(z) = P(Z < 2) 
=P(X<z,Y <2) 
= P(X <z)P(Y < 2) 


= 22. 


经 过 微分 可 得 


口 
0， 其 他 . 
例 4.8 假设 X 和 了 都 服从 区 间 [0,1] 的 均匀 分 布 , 而 且 彼 此 相互 独立 . 问 随机 
变量 Z = Y/X 的 概率 密度 函数 是 什么 ? 
我 们 还 是 根据 两 步 法 先 计 算 2 的 分 布 函数 , 然后 微分 得 出 它 的 密度 函数 . 在 
计算 的 时 候 要 对 两 种 情形 : 0 < z < 1 和 > > 1 分 别处 理 . 如 图 4.5 所 示 , 我 们 可 以 
得 到 


ee ~ 车 z € [0,1] 时 ， 


z/2, 若 ze [0,1] 时 ， 
Pal) =P (六 <z) ==41-1/(2z)， 若 z> 1 时 ， 
0， 其 他 . 


将 Fz(z) 微分 , 可 得 
1/2， 若 ze [0,1] 时 ， 
jz(z) = 二 41/(2z?)， 若 z>1 时 ， 口 
0， 其 他 . 


图 4.5 计算 例 4.8 中 Z = Y/X 的 密度 函数 . 概率 P(Y/X < z) 等 于 单位 正方 形 内 阴影 部 分 
的 面积 . 左 图 处 理 0 < z < 1 情形 下 的 概率 , 右 图 处 理 > > 1 情形 下 的 概率 
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例 4.9 罗密欧 和 朱丽叶 定期 约会 , 他 们 每 个 人 每 次 到 达 约 会 地 点 时 都 会 离 约定 的 
时 间 有 延迟 , 而 且 他 们 的 延迟 时 间 是 彼此 相互 独立 的 . 假定 延迟 的 时 间 都 服从 指数 
分 布 , 参数 为 和 . 那么 他 们 到 达 约 会 地 点 的 时 间 差 具有 什么 样 的 概率 密度 函数 ? 

记 X 和 了 分别 是 罗密欧 和 朱丽叶 约会 时 到 达 的 时 间 (假定 约会 时 刻 为 0). 我 
们 的 目标 是 计算 Z = XX 一 Y 的 概率 密度 函数 . 由 假设 可 知 X 和 了 都 是 服从 参数 
为 和 的 指数 分 布 . 我 们 先 计算 分 布 函数 Fz(z), 分 两 种 情况 z > 0 和 z < 0 来 讨论 ， 
见 图 4.6. 


0 2 Lr 2 0 


图 4.6 计算 例 4.9 中 2 = XX 一 了 的 分 布 函数 . 为 了 求 出 概率 P(X 一 Y > z), 必须 对 联合 密 
度 函数 fx,y (zx,y) 进行 积分 , 积分 区 域 如 图 中 的 阴影 部 分 所 示 . 左 图 处 理 z > 0 的 情 
形 , 右 图 处 理 z < 0 的 情形 


当 z 之 0 ( 见 图 4.6 的 左 图 ) 
Fz(z)= P(X—-Y 2z)=1-—-P(X—Y>2z) 


一 工 一 dy / fx,Y (x,Yy)dz 
0 Zz 十 yy 


Oo Oo 
= -|/ x ay { Xe》zdz 
0 z+y 


oo 
涯 ; 征 -|/ Me Ne zt dy 
0 


二 1 一 | Me 2 dy 
0 


1 
2 3 


当 z < 0, 我 们 可 以 使 用 类 似 的 计算 方法 , 但 是 也 可 以 利用 对 称 性 . 实际 上 , 由 
对 称 性 可 知 , 随机 变量 Z = XY 与 -2Z =Y 一 XX 的 分 布 是 相同 的 . 所 以 


Fz(z)=P(Z &¢)=P(-Z2-z)=P(Z > -2z)=1- Fz(-z). 
当 z < 0 时 , -z > 0, 所 以 我 们 可 以 使 用 已 经 推导 出 来 的 公式 , 可 以 得 到 


F(z)=1— Fz(-z)=1— @ 一 9 一 jo 
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综合 z>0 和 z < 0 两 种 情况 , 我 们 可 以 得 到 


1- ze”™, 若 z> 0 时 ， 
Fz(z) = 1 、 
二 6 ， 若 z < 0 时 . 


对 分 布 函数 进行 微分 , 可 以 得 到 密度 函数 , 即 


[和 若 z> 0 时 ， 


~e**， 车 z<0 时 . 


这 就 是 有 名 的 双边 指数 密度 函数 , 也 称 为 拉 普 拉 斯 密度 函数 . 口 
4.1.4 ”独立 随机 变量 和 一 一 卷 积 
设 X 和 了 是 两 个 独立 的 随机 变量 , 考虑 它们 的 和 2 = XX 十 Y 的 分 布 . 首先 ， 
我 们 推导 当 X 和 YY 都 是 离散 的 情况 下 , 2 的 分 布 函数 . 
设 和 和 YY 是 仅 取 整数 值 的 独立 随机 变量 , 它们 的 分 布 列 分 别 为 px 和 py. 则 
对 于 任意 整数 >， 
pz(z) = P(X+Y = 2) 


= >》 P(X=z,Y=Y 
{(z9) ls+y=z} 


= P(X=7,Y =z—7) 
= > px(z)py(z — £). 


得 到 的 分 布 列 pz 称 为 X 和 了 的 分 布 列 的 卷 积 . 关于 卷 积 的 直观 意义 见 图 4.7 的 
说 明 . 


图 4.7 XX 十 Y = 3 时 对 应 的 概率 pz(3) 是 所 有 满足 x 十 y = 3 的 (zx,y) 出 现 的 概率 之 和 ， 
中 标 出 了 这 些 点 . 这 类 的 点 的 概率 计算 公式 如 下 : 


px,Y (x,3— £2)= px(r)pr(3— 7) 
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现在 我 们 假设 X 和 Y 为 独立 的 连续 型 随机 变量 , 它们 的 概率 密度 函数 分 别 为 
fx 和 应 . 我 们 希望 求 出 2 = 和 TY 的 概率 密度 函数 , 为 此 , 我 们 首先 求 出 和 和 
2 的 联合 概率 密度 函数 , 然后 通过 积分 求 出 Z 的 概率 密度 函数 . 
首先 注意 到 ， 
P(Z <z|X=7x)= P(X+Y < X=7) 
=P(z+Y <%) 
= P(Y &z— 7), 
第 二 个 等 号 由 X 和 了 的 独立 性 所 致 . 两 边 同时 取 z 的 微分 , 可 见 fzx(z|z) = 
fy(z 一 z). 利用 乘法 法 则 , 有 
fx,z(7,2) = fx(7)fzlx(z|7) = fx(z)fy(z — 7), 
由 上 式 最 后 可 推 得 


fz(2) 一 广 fx,z(7, Zz)dz 一 广 jx(Z) 户 (z 一 2Z)dz. 


这 个 公式 和 离散 情况 下 的 公式 是 完全 类 似 的 , 只 是 用 积分 替代 了 求 和 , 用 概率 密度 
函数 代替 了 分 布 列 . 图 4.8 给 出 了 这 个 公式 的 一 个 直观 理解 . 


Z 十 9 一 2z 十 6 


Ty=% 


图 4.8 连续 随机 变量 情形 下 卷 积 公 式 的 说 明 (对 比 图 4.7)， 对 非常 小 的 5 > 0, 图 中 带 形 区 
域 所 代表 的 事件 发 生 的 概率 就 是 P(z < XX 十 Y < z+ 十 6) 3 fz(z)6. 因此 ， 


fz(z)6=P(z < X+Y < z+0) 
oo 2 一 2 十 
=/ /repay 
~ fx (rz)fy(z — zr)édrx. 


和 欲 证 等 式 去 掉 上 式 左右 两 边 的 6 即 得 
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例 4.10 ” 设 随 机 变量 X 和 了 相互 独立 并 且 都 服从 区 间 [0,1] 上 的 均匀 分 布 . 按 独 
立 随机 变量 之 和 的 密度 公式 , 变量 Z = XX 十 Y 的 概率 密度 函数 为 


jz(z) = 广 fx(z)fy(z 一 7Z)dz. 


被 积 函 数 fx(z)fy(z 一 +z) 当 0<zsl 且 0g<z-x<1l 时 是 非 零 的 (实际 上 等 于 
1). 将 这 两 个 不 等 式 联合 起 来 , 被 积 函数 当 max{0,z 一 1} < x < min{1,z} 时 非 零 
因此 ， 

疡 加 = 人 0s lh OSs < 


0， 其 他 情况 . 
如 图 4.9 所 示 , fz(z) 的 图 像 像 个 三 角形 的 尖 
顶 . 口 fz(2) 
下 面 我 们 给 出 卷 积 公式 的 一 个 重要 的 应 1 
用 . 
例 4.11 (相互 独立 正 态 随 机 变量 之 和 的 分 布 ) 0 1 2 2 


设 随机 变量 XX 和 Y 相互 独立 , 分 别 服从 均值 
为 ys 和 jy, 方差 分 别 为 o2 和 o2 的 正 态 分 
布 . 定义 2 = 久 十 Y. 由 卷 积 公式 , 可 得 


_/»_1 (一 po 1 (一 2 一 jy) 
za 人 Fe 人 203 名人 2 ) 


上 式 中 的 积分 有 明确 的 表达 式 , 但 是 细节 比较 麻烦 , 所 以 在 此 省 略 . 最 后 的 结论 是 
(z — pz — 多 六 


-em 人- 

/27(02 + 02) 2(0z + 09) 

这 是 均值 为 js + py, 方差 为 oc2 + oz 的 正 态 分 布 的 密度 函数 . 所 以 可 以 得 出 结论 : 
两 个 独立 正 态 随机 变量 之 和 仍然 是 正 态 的 . 在 4.4 节 里 会 使 用 矩 母 函 数 的 方法 来 讨 
论 本 题 的 派生 问题 . 口 
例 4.12 (两 独立 随机 变量 之 差 ) “” 卷 积 公 式 也 可 以 用 于 计算 XY 的 密度 函数 . 其 
中 和 和 Y 是 相互 独立 的 . 方法 是 将 七- 了 看 成 是 X 与 ~Y 的 和 . 注意 , ~Y 的 密 
度 函 数 是 f_y(y) = 户 (- 急 , 从 而 


图 4.9 两 个 独立 的 [0,1] 上 均匀 分 布 
随机 变量 的 和 的 概率 密度 函数 


fz(z) = 


tv)=/ fx (of ys 2)dr = {mfr -ar 


“现在 设 X 和 Y 相互 独立 , 且 都 服从 参数 为 、 的 指数 分 布 ( 见 例 4.9). 对 任意 
z 之 0, 注意 到 只 有 当 z > z 时 , fy(z 一 z) 才 非 零 , 所 以 
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fev (0)= {fxs sds 


oo 
一 / Me™*?Ae— Nr?-z) dz 


忆 
co 
一 Xe / e 一 2Xzd7 
包 


1 
MX2 AXz 一 一 2 入 z 
一 Xe ox 


这 与 例 4.9 得 到 的 结论 是 一 致 的 . 当 z < 0 时 , 可 以 使 用 相同 的 方法 , 只 需 注 意 到 
fx-r(2)= fy_x(2)= f(x-r)(2) = fx-_r(-2). 
上 式 中 第 一 个 等 式 是 因为 与 Y 同 分 布 , 因而 X -Y 的 分 布 具有 对 称 性 . 口 
使 用 卷 积 公式 时 , 最 关键 的 步骤 是 要 确定 正确 的 积分 限 . 但 是 这 通常 是 繁琐 且 
易 错 的 , 但 是 可 以 利用 下 面 将 要 介绍 的 图 像 法 加 以 避免 . 


4.1.5 ” 卷 积 的 图 像 计 算法 


我 们 使 用 一 个 哑 变 量 t 作为 本 节 涉 及 的 不 同 函 数 的 自 变 量 , 见 图 4.10. 考虑 两 
个 概率 密度 函数 fx(t) 和 fy(t). 给 定 z 一 个 值 , 计算 卷 积 


to) = fx ta / 
的 图 像 表达 包括 如 下 步 又 


图 4.10 ” 卷 积 计算 的 描述 . 对 于 考虑 中 的 z 的 值 ，fz(z) 与 最 后 一 幅 图 中 所 示 的 函数 的 
积分 相等 


190 第 4 章 随机 变量 的 深入 内 容 


(a) 画 出 六 (zx 一 为 关于 + 的 函数 图 像 . 这 个 图 像 和 函数 y(t) 的 图 像 的 形状 完 
全 类 似 , 除了 一 点 不 同 : 它 是 先 “翻转 ”然后 平移 一 个 z 的 量 , 如 果 z > 0, 向 右 平 
移 ; 如 果 z < 0, 向 左 平移 . 

(b) 我 们 将 fx(t) 和 fy(z 一 ) 的 图 像 放 在 彼此 上 面 , 制作 出 它们 的 乘积 . 

(c) 我 们 通过 计算 乘积 函数 的 积分 得 到 fz(z) 的 值 . 

通过 变化 z 的 量 , 即 我 们 平移 的 量 , 就 可 得 到 取 任 何 z 时 的 fz(z). 


4.2 ” 协 方 差 和 相关 


本 节 介 绍 如 何 量化 两 个 随机 变量 之 间 关 系 的 大 小 和 方向 . 该 内 容 非常 重要 , 将 
应 用 于 在 第 8 章 和 第 9 章 的 估计 方法 . 

X 和 了 的 协 方差 记 为 cov(X,Y), 其 定义 如 下 : 

cov(X,Y) = E[(X — ELX]))(Y — E[Y])]. 

当 cov(X,Y) = 0 时 , 我 们 说 氏 和 YY 是 不 相关 的 . 

粗略 地 说 , 一 个 正 或 者 负 的 协 方差 表示 在 一 个 试验 中 的 铸 一 EIX] 和 YY 一 E[Y] 
的 值 “趋向 ”有 相同 或 者 相反 的 符号 ( 见 图 4.11). 因此 , 协 方差 的 符号 提供 了 一 个 
了 基 和 YY 之 间 关 系 的 重要 定量 指标 . 


1 Ti 


(a) (b) 
图 4.11 正 相 关 随 机 变量 和 负 相 关 随 机 变量 的 例子 . 这 里 (X,Y) 在 图 中 所 示 的 椭圆 中 均匀 分 
布 . 在 情况 (a) 中 cov(X,Y) 是 正 值 , 在 情况 (b) 中 是 负 值 


协 方 差 的 另 一 种 表达 为 
cov(X,Y) = ELXY] ~ ELX]E[Y), 
通过 简单 运算 就 可 证 明 这 个 等 式 . 从 协 方差 的 定义 出 发 , 我 们 还 可 以 推导 出 协 方差 
的 一 些 性 质 : 对 任意 的 随机 变量 X,Y 和 2Z, 以 及 任意 实数 a 和 b， 
cov(X,X) = var(X), 
cov(X,aY +b) = a.cov(X,Y) 
cov(X,Y +2)= cov(X,Y) + cov(X, 2). 
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要 提醒 注意 的 是 下 面 的 事实 : 如 果 基 和 YY 是 相互 独立 的 , 则 了 LIXY] = E[X]E[Y]， 
即 有 cov(X,Y) = 0. 因此 , 如 果 和 和 Y 是 相互 独立 的 , 它们 是 不 相关 的 . 但 是 , 道 
命题 不 成 立 , 见 下 例 . 

例 4.13 ” 设 随 机 变量 对 (X,Y) 分 别 以 1/4 的 概率 取 值 于 (1,0), (0,1), (一 1,0) 和 
(0, 一 1)( 见 图 4.12). 因此 , X 和 YY 的 边缘 分 布 列 都 关于 0 对 称 , 且 E[X] = E[Y] = 0. 
更 进一步 , 对 (z,y) 可 能 取 到 的 任何 值 , > 和 y 中 总 有 一 个 为 0, 此 时 XY = 0 且 
E[XY] = 0. 因此 

cov(X,Y) = EI[XY] — EI[X|EIY] = 0， 


即 和 和 YY 不 相关 . 但 是, X 和 Y 不 是 独立 的 . 因为 , 例如 X 取 非 零 值 时 就 要 求 Y 
取 零 . 
这 个 例子 可 以 推广 出 一 个 一 般 的 结论 . 
假设 X 和 了 满足 
E[X|Y = = EI[X]， 对 任意 的 y 成 立 ， 


则 如 果 XX 和 了 是 离散 变量 时 , 利用 全 期 户 
定理 可 以 得 到 


E[XY] = > ypr (y)E[XIY = 
y 图 4.12 例 4.13 中 和 和 YY 的 联合 分 
= 了 EIEXI》 ypr(y) = E[X]EI[Y]. 布 列 . 图 中 所 示 的 四 个 点 中 每 
4 个 点 的 出 现 概率 都 为 1/4， 这 
这 样 X 和 Y 是 不 相关 的 . 在 连续 的 情形 下 ， 省 
这 个 结论 仍然 成 立 . 口 
两 个 方差 非 零 的 随机 变量 X 和 了 的 相关 系数 p(X,Y) 的 定义 如 下 : 


cov(X,Y) 
var(X )var(Y) 


( 当 针 和 YY 在 文中 很 明显 时 可 使 用 简化 记号 p.) 它 可 视 为 协 方差 cov(X,Y) 的 标 
准 化 . 且 事 实 上 , 可 证 明 p 取 值 于 -1 到 1 之 间 ( 见 章 末 习 题 ). 

如 果 p > 0(p < 0), 则 针 一 E[X] 和 YY 一 EIY] 的 值 趋向 同 号 ( 反 号 ), 且 |p| 的 大 
小 反映 了 趋向 程度 的 标准 度量 大 小 . 事实 上 , 总 可 以 假定 X 和 Y 有 正 的 方差 , 在 
此 种 情况 下 , 可 以 证 明 p = 1 (p = 一 1) 当 且 仅 当 存在 一 个 正 的 ( 负 的 ) 常数 c, 使 得 


p(X,Y)= 


Y — E[lY] = c(X - EIX])) 


( 见 章 末 习 题 ). 下 面 的 例子 部 分 地 解释 了 这 个 性 质 . 
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例 4.14 考虑 一 个 硬币 的 ”次 独立 的 抛掷 , 其 中 正面 朝 上 的 概率 是 p. 设 X 和 Y 
分 别 是 正面 朝 上 和 人 负面 朝 上 的 次 数 , 现在 让 我 们 来 看 一 下 和 和 了 的 相关 系数 . 这 
里 , 我 们 总 有 XX 十 Y =n 且 E[X] 十 E[Y] =n. 因此 


XEX|=-(Y -EY). 


我 们 将 计算 X 和 了 的 相关 系数 , 证 明 它 确实 等 于 一 1. 


我 们 有 
cov(X,Y)=E [x — EI[X])(Y - EIY])| 
=-E|(X — E[X])’| 
= —var(X). 
因此 , 相关 系数 为 
pKD ED a -1 口 
， var(X)var(Y) var(X)var(X) 
随机 变量 和 的 方差 


协 方 差 可 以 用 于 计算 多 个 随机 变量 (不 必 独 立 ) 之 和 的 方差 . 特别 地 , 设 随机 
变量 X1,… ,X 具有 有 限 的 方差 , 则 


var(X1 + X2) = var(X1) + var(X2) + 2cov(X1, X2), 


更 一 般 的 结论 是 


Var (> ] 一 Svar(x) 十 》、 cov(Xi, X;). 
i=l i=1 


{(%7)|i 活 说 
上 述 公式 , 可 以 如 下 推导 : 简 记 X; = X; 一 E[X;], 
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EIX2]+ >, El 
{7)| 颖 站 


: 


i 
本 


MM : 


var(Xi) 十 >》, cov(Xi, X;). 

1 {(%,7)1i#7} 

下 面 举 一 个 例子 来 运用 这 个 公式 . 

例 4.15 考虑 2.5 节 中 讨论 的 帽子 问题 有 n 个 人 将 帽子 扔 进 一 个 盒子 , 然后 每 人 
随机 地 选 一 顶 帽子 . 设 X 是 拿 到 自己 帽子 的 人 数 , 现在 计算 X 的 方差 . 设 X; 表 
示 第 i 个 人 是 否 拿 到 自己 帽子 的 随机 变量 , 即 X; = 1, 表示 拿 到 了 自己 的 帽子 , 否 
则 X; = 0. 此 时 ， 


©. 
| 


大 一 XI 十 .十 和 


注意 , X; 服从 p 二 P(Xi; = 1) 二 = 的 伯 努 利 分 布 , 经 计算 


E[X;] = 2 var(Xi) = @ - 2) . 


nN 


n 
当 i 交 7 
cov(Xi, X;) 一 也 [XiX] 一 E[Xi:]E[X;] 
=P(Xi=1,X=1)- .1 
n n 
1 
=P(Xi=1)P(Xi=1|Xi=])- 方 
1. 1 _1 
n nl nn 
1 
~ n2(n—1) 
所 以 


var(X) = var (> ] 


nn 
Dvar(Xi) 十 》， cov(Xi, X;) 
i=1 {65,717} 


=n 1) rn) 1 


nz 一 JJ) 


| 
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协 方差 和 相关 
。 和 和 了 的 协 方差 公式 如 下 : 


cov(X,Y) =E le: — EIX])(Y — EIY)| = EIXY] — EI[XIE[Y]. 
。 如 果 cov(X,Y) =0, 则 称 XX 和 Y 不 相关 . 


。 如 果 针 和 YY 是 独立 的 , 则 它们 不 相关 . 反之 不 总 成 立 . 
。 两 变量 和 的 方差 公式 : 


var(X+Y)=var(X)+var(Y) + 2cov(X,Y). 
。 具有 正方 差 的 随机 变量 X 和 YY 的 相关 系数 p(X,Y) 定义 为 
p(X,Y) = cov(X,Y) 


Vvar(X jvar(Y) 


且 满足 


—l<p(X,Y)<1. 


4.3 ”再 论 条 件 期 望 和 条 件 方差 


本 节 再 次 讨论 随机 变量 X 在 给 定 另 一 个 随机 变量 Y 之 下 的 条 件 期 望 , 可 将 这 
个 条 件 期 望 看 成 依赖 于 Y 的 函数 , 因而 是 随机 变量 . 我 们 将 导出 全 期 望 定理 的 另 
一 个 版 本 , 称 为 重 期 望 法 则 , 用 通俗 的 语言 说 , 就 是 条 件 期 望 的 期 望 等 于 无 条 件 期 
望 . 同时 , 我 们 也 推导 全 方差 法 则 ,该 法 则 涉及 条 件 方差 和 无 条 件 方差 . 

一 个 随机 变量 X 的 条 件 期 望 E[X|Y = yj 的 值 , 依赖 于 Y 的 值 y， 因 为 
E[XIY = gj 是 y 的 函数 , 所 以 EI[X|Y] 是 了 的 函数 , 因此 也 成 为 一 个 随机 变量 ， 
它 的 分 布依 赖 于 Y 的 分 布 . 在 本 节 中 , 我 们 研究 E[X|Y] 的 期 望 和 方差 , 它 的 性 质 
不 仅 在 本 章 很 重要 , 而 且 在 第 8 章 和 第 9 章 的 估计 和 统计 推断 中 特别 重要 . 

例 4.16 ”假设 我 们 在 投 撕 一 个 不 均匀 的 硬币 ,正面 朝 上 的 概率 , 记 为 Y, 也 是 
随机 的 .假定 正面 朝 上 的 概率 Y 的 分 布 为 已 知 , 它 是 [0,1] 上 的 分 布 . 现在 我 们 
投 振 n 次 硬币 , 定义 X 为 正面 朝 上 的 总 次 数 ， 由 于 对 任意 的 y e [0,1], 我 们 有 
E[X|Y = 了 j= ny, 所 以 E[X|Y] 是 随机 变量 nY. 口 
既然 E[X|Y] 是 一 个 随机 变量 , 那么 就 应 该 有 自己 的 期 望 E[E[X|Y]. 使 用 期 望 
法 则 , 可 得 
DE[XIY = ylpy (y), Y 离散 ， 
E[E[XIY]] = 2 
E[XIY = yfy(y)dy，Y 连续 . 
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右边 的 两 个 表达 式 在 第 2, 3 章 中 都 非常 熟悉 . 使 用 全 期 望 定理 ,它们 都 等 于 
E[X]. 这 样 我 们 就 可 以 得 出 如 下 结论 : 不 管 随机 变量 Y 是 离散 的 、 连 续 的 、 或 混合 
的 , 只 要 随机 变量 X 具有 有 限 的 期 望 E[X], 下 面 的 法 则 成 立 . 


重 期 望 法 则 : E[E[X|Y]] = E[X]. 


下 面 使 用 实例 来 说 明 如 何 运 用 重 期 望 法 则 , 来 计算 涉及 条 件 概率 的 问题 中 的 期 
望 值 . 
例 4.16 ( 续 ) ”假设 Y 是 投掷 硬币 出 现 正 面 的 概率 (Y 是 随机 变量 ! ), Y 的 分 布 
是 [0,1] 上 的 均匀 分 布 . 因为 E[X|Y] = nY, 且 E[Y] = 1/2, 运用 重 期 望 法 则 , 可 得 


E[X] = EIE[LXIY]] = ElnY] = nE[Y] = 7 口 


例 4.17 ”我 们 考虑 一 根 长 度 为 1 的 木 棍 . 从 一 点 将 其 折断 , 这 点 是 随机 选择 的 , 即 
这 个 点 的 分 布 是 在 整 条 木 棍 上 均匀 分 布 . 折断 以 后 , 留 下 含 木 棍 左 端的 那 一 半 . 我 
们 接 下 来 重复 以 上 步骤 . 试问 在 折 两 次 之 后 剩 下 的 木 棍 长 度 的 期 望 是 多 少 ? 

记 了 为 第 一 次 折断 之 后 剩 下 的 木 棍 长 度 ,X 为 第 二 次 折断 之 后 木 棍 剩 下 的 长 
度 . 我 们 有 E[XIY] = Y/2, 这 是 因为 断 点 是 在 剩 下 的 长 度 Y 上 均匀 选择 . 类 似 地 ， 
有 E[Y] = 1/2. 因此 ， 

E[X] = EIE[XIZ] = E | = 2 一 2 口 

例 4.18 (全 班 平 均 成 绩 与 分 组 平均 ) ”一 个 班级 有 m 名 学 生 . 学 生 ; 的 测验 分 数 记 
为 zi. 已 知 班级 测验 的 平均 分 为 


n 
1 
?1 一 一 》 1 
了 
?一 工 


现 将 全 部 学 生 分 成 上 个 互 不 相交 的 子 集 41,… , 4x( 组 ). 我 们 记 ms 为 。 组 的 学 生 
数 .。 组 的 平均 分 数 为 | | 
ms 一 ns 2, Ti. 


iEA, 


全 班 的 平均 分 数 可 以 用 每 组 的 平均 分 数 m。 的 加 权 平 均 来 计算 , 。 组 的 权重 正比 于 
为 该 组 的 学 生 数 , 即 权重 为 ns/n. 直接 计算 证 明 此 法 得 到 的 结果 是 正确 的 : 
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ne 
1 > 
二 一 Ti 
Nn 
i=1 
一 71， 


这 和 条 件 期 望 怎样 联系 起 来 的 呢 ? 考虑 这 样 一 个 实验 . 随机 地 选择 一 位 学 生 ， 
其 中 每 个 学 生 被 选中 的 概率 是 1/n. 考虑 下 面 两 个 随机 变量 : 
X= 被 选中 的 学 生 的 成 绩 ; 
Y= 被 选中 的 学 生 所 在 的 组 ， (Y € {1,… ,}). 
所 以 ， 
E[X] = m. 
事件 {Y = s} 与 选中 的 学 生 属于 s 组 是 等 同 的 事件 . {Y = s} 发 生 的 条 件 下 , 每 个 
在 这 个 组 的 学 生 被 选中 的 概率 为 1/m。 因此 ， 
EIXIY = s] = 二 >》 ， zi = ms. 
2 i€A, 
一 个 随机 选中 的 学 生 属 于 s 组 的 概率 为 ns/n, 即 P(Y = s) = ns/m. 因此 ， 
k k 
m= ELX] = E[E[XIY)] = 》 EIXIY = s]P(Y = s) = ems. 
s=1 s=1 
因此 , 利用 组 平均 求全 班 平均 成 绩 的 方法 可 视 为 重 期 望 法 则 的 一 种 特殊 情况 ， 口 
例 4.19 (预测 调整 ) 记 YY 为 公司 来 年 上 半期 的 销量 , X 为 全 年 销量 . 公司 已 经 
建立 了 一 个 销量 统计 模型 , 所 以 X 和 Y 的 联合 分 布 是 已 知 的 . 在 年 初 , 期 望 E[X] 
可 以 作为 实际 销量 X 的 一 种 预测 . 在 年 度 中 期 时 , 上 半年 的 销量 已 经 实现 , 因此 随 
机 变量 Y 己 知 . 这 将 我 们 置 于 一 个 新 环境 中 , 在 这 里 所 有 变量 都 依赖 于 Y. 基于 对 
Y 的 了 解 , 公司 建立 了 一 个 调整 后 的 年 度 销量 预测 E[XIY]. 
根据 年 度 中 期 信息 , 我 们 可 将 EI[X|Y] - EIX] 看 成 中 期 的 销量 预测 的 修正 值 . 
由 重 期 望 法 则 可 知 : 
E[EIXIY] ~ ELX]] = E[E[X|Y)] — ELX] = EIX] ~ E[X] = 0. 
这 意味 着 中 期 的 销量 预测 的 修正 值 一 般 不 等 于 0. 但 在 年 初 , 我 们 并 不 知道 上 半年 
的 销售 量 , 只 能 把 销量 预测 的 修正 值 E[X|Y] - E[X] 看 成 一 个 随机 变量 . 但 是 概率 
计算 说 明 这 个 随机 变量 的 平均 值 为 0. 这 在 直观 上 是 十 分 合理 的 , 事实 上 , 如 果 这 
个 期 望 值 取 正 值 , 原先 的 预报 在 最 初 就 应 该 更 高 . 口 
最 后 给 出 一 个 条 件 期 望 的 重要 性 质 : 对 任意 给 定 的 函数 9 均 有 


ElXg(Y)Y] = g(Y)ELXIY]. 


这 是 因为 , 在 给 定 Y 的 条 件 下 , g(Y) 是 一 个 常数 , 所 以 可 以 从 期 望 中 提出 来 (见习 
题 25). 
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4.3.1 条件 期 望 作为 估计 量 
如 果 我 们 将 Y 视 为 能 提供 X 信息 的 观测 值 , 则 我 们 很 自然 地 将 条 件 期 望 作为 
给 定 Y 的 条 件 下 , 对 X 的 售 计 , 记 为 
芒 =E[X|Y]. 
这 样 , 估计 误差 就 定义 为 
多 = 鲍 一 X. 
显然 估计 误差 也 是 随机 变量 , 且 满 足 
E[X|Y] = E[( 苹 一 X)|Y] = E[ 区 |Y] 一 ELXIY] = 六 一 训 =0. 


所 以 随机 变量 EI 六 |Y] 恒 为 0: 对 任意 的 y, 了 [这 | 了 = gj = 0. 运用 重 期 望 法 则 , 还 
可 以 得 到 
E[X] = E[E[X|Y)] = 0. 


这 就 表明 估计 误差 没有 系统 性 的 正 或 负 的 偏 倚 . 
下 面 接着 证 明 多 具有 另 一 个 有 趣 的 性 质 : 它 与 估计 误差 这 是 不 相关 的 . 事实 
上 , 运用 重 期 望 法 则 , 可 得 


也 [ 误 训 ] = E[E[ 攻 光 |Y]] = 瑟 [ 京 E[ 广 [7 = 0， 
倒数 第 二 个 等 式 成 立 的 原因 是 发 完全 是 Y 的 函数 , 所 以 
E[XX|Y] = XEIXIY] = 0. 
从 而 ， 
cov( 况 ,总 ) 一 囊 [ 语 过 |] 一 也 [ 充 ]E[ 充 ] = 0 一 EIX].0=0, 
故 义 与 充 是 不 相关 的 . 
基于 cov( 鸳 , 义 ) = 0 这 个 结论 , 又 注意 到 多 一 况 十 沪 , 两 边 取 方差 , 我 们 可 以 
得 到 
Var( 羡 ) = var( 总 ) 十 var( 义 ). 
上 面 这 个 等 式 , 可 以 表述 为 一 个 有 用 的 法 则 , 下 面 我 们 开始 讨论 这 个 法 则 . 
4.3.2 ”条 件 方差 
首先 介绍 随机 变量 


var(X|Y) = E[(X ~ E[X|Y])?|Y] = E[X2|Y]. 
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这 是 一 个 关于 Y 的 函数 , 对 于 给 定 的 Y 值 y, 它 等 于 在 已 知 {Y = 的 条 件 下 , X 
的 条 件 方 差 为 
var(X|Y = 2») = E[X?|Y = Yy. 


利用 结论 : E[] = 0 和 重 期 望 法 则 , 我 们 可 以 将 估计 误差 的 方差 写成 
var(X) = EIX’ = E[E[X2|Y]] = Elvar(X|Y)), 
所 以 等 式 var(X) -= var( 部 ) + var( 多 ) 就 可 以 写 为 如 下 形式 . 
全 方差 法 则 : var(X) = Elvar(X|Y)] + var(E[X|Y]). 


下 面 举例 说 明 全 方差 法 则 对 计算 随机 变量 的 方差 非常 有 用 . 
例 4.16 ( 续 ) ”我 们 还 是 考虑 ”次 投掷 一 枚 不 均匀 的 硬币 的 实验 . 设 Y 是 投 撕 硬 
币 正 面 朝 上 的 概率 , 服从 [0,1] 区 间 的 均匀 分 布 . 定义 X 为 n 次 投掷 硬币 正面 朝 上 
的 总 次 数 . 则 对 任意 的 y € [0,1], 我 们 有 E[XIY = 可 = ny, 故 E[X|Y] = wyY, 且 
var(X|Y)=nY(1 一 了 ). 所 以 


Elvar(X|Y)] = ElnY (1 — Y)] = n(E[Y] — E[Y?]) 
=n(EIY] — var(Y) — (EIY])?) =n (3 _1_ i) - 

再 有 ， 

var(E[X|Y]) = var(nY) = 巧 


所 以 , 运用 全 方差 法 则 , 我 们 有 


n nn2 
var(X) = Elvar(X|Y)] + var(E[LX|Y]) = Gt 12: 
例 4.17 ( 续 ) ”重新 考虑 两 次 折断 木 棍 的 问题 . 木 棍 原 长 1, 断 点 是 随机 选择 的 . Y 
是 第 一 次 折断 后 剩 下 的 长 度 , X 是 第 二 次 折断 后 剩 下 的 长 度 . 我 们 已 经 计算 得 到 X 
的 期 望 为 /4 现在 我 们 运用 全 方差 法 则 来 计算 var(X). 
因为 XX 服从 0 到 Y 之 间 的 均匀 分 布 , 得 


口 


2 
var(X|Y) = . 


因为 Y 服从 0 到 1 之 间 的 均匀 分 布 , 得 


1 /fil 1 1 2 
Elvar(X|Y)] = 十 [ jyzty= 十 .十 中 | = 所 
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同时 E[X|Y] = Y/2, 所 以 


2 2 

var(E[X|Y]) = var(Y/2) = jvar(Y) = 3 : 二 一 全 
根据 全 方差 法 则 , 得 
2 72 
48 ”144- 
例 4.20 (学 生成 绩 的 方差 与 分 组 方差 ) ”所 讨论 的 问题 背景 与 例 4.18 中 的 相同 , 我 
们 重新 考虑 这 些 随机 变量 

环 二 学 生 的 成 绩 ， 


记 ns 为 s 组 的 学 生 数 目 , 记 nn 为 学 生 总 数 . 我 们 解释 下 列 公 式 中 的 不 同 的 量 
var(X) = Elvar(X|Y)] + var(E[X|Y]). 


在 这 里 , var(X|Y = s) 是 s 组 测验 分 数 的 方差 . 因此 ， 


var(X) = Elvar(X|Y)] + var(E[X|Y]) = 十 口 


k 天 
Blvar(XIY)] = DO PGCY = s)var(X|Y =s) = Tvar(X|Y = s), 
3 一 工 3 一 荆 

所 以 Elvar(X|Y)] 是 各 组 方差 的 加 权 平 均 , 这 里 每 个 组 的 权重 与 组 内 人 数 成 正比 . 

注意 , E[X|Y = s] 是 s 组 的 平均 成 绩 . 因此 , var(E[X|Y1) 就 是 各 组 均值 波动 性 
的 度量 . 全 方差 法 则 表明 分 数 的 总 方差 可 以 划 为 两 部 分 : 

(a) 在 每 组 内 部 方差 的 平均 数 Elvar(X|Y)]; 

(b) 各 组 之 间 的 方差 var(E[X|Y]). 口 

我 们 前 面 已 经 发 现 重 期 望 法 则 (以 全 期 望 定 理 的 方式 给 出 ) 可 以 用 来 化 简 复杂 
的 期 望 计 算 . 对 于 方差 计算 也 可 用 类 似 的 方法 . 
例 4.21 (通过 给 定 条 件 来 计算 方差 ) ”考虑 一 个 连续 随机 变量 X, 它 的 概率 密度 函 
数 在 图 4.13 中 给 出 , 我 们 定义 一 个 辅助 的 随机 变量 Y 如 下 : 


1， 著 z < 1， 
y= 人” 
2， 若 z > |. 


这 里 , E[X|Y] 以 1/2 的 概率 分 别 取 值 2 和 1/2. 因此 , E[X|Y] 的 均值 为 5/4. 接 下 


来 
var(E[X|Y]) = 3 (3 - 5) + 3 (2 - 3) = 主 . 
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fx(®) 
1/2 


1/4 


1 3 了 
图 4.13 例 4.21 中 的 密度 函数 


当 在 给 定 Y = 1 或 Y =2 的 条 件 下 , X 在 长 度 为 1 或 2 的 线段 上 均匀 分 布 . 
因此 


1 4 
var(X|IY = 1) = 13’ var(X|Y = 2) = 13 


1 1 1 4 5 
Elvar(XIY) = 3 +3 33= 区 : 
妇 总 , 得 
5 9 37 
var(X) = Elvar(X|Y)] + var(E[X|Y]) = 区 十 16-= 38 口 


总 结 本 节 要 点 如 下 . 


条 件 期 望 和 条 件 方差 的 性 质 
e EI[X|IY = I 的 值 依赖 于 y. 
。E[X|Y] 是 随机 变量 了 的 函数 , 因此 它 也 是 一 个 随机 变量 . 当 Y 的 值 为 y 
时 , 它 的 值 就 等 于 E[X|Y = 外 ， 
。E[E[X|Y]] = EB[X] ( 重 期 望 法 则 ). 


。E[X|Y = 中 可 视 为 已 知 Y 一 y 时 , 对 XX 的 估计 . 相应 的 估计 误差 局 [X|Y] 
XX 是 一 个 零 均 值 的 随机 变量 , 且 与 E[X|Y] 是 不 相关 的 . 

e var(XIY) 也 是 个 随机 变量 ， 当 Y 的 值 为 y 时 ， 它 的 值 就 等 于 var(X|Y 
=y). 

e var(X) = Elvar(XX|Y)] 十 var(E[X|Y]) (全 方差 法 则 ). 


4.4 和 矩 母 函数 


在 本 节 中 , 我 们 引进 与 随机 变量 相关 的 算 母 函数 ”这 个 概念 . 矩 母 函 数 是 对 概 
率 (分 布 列 或 者 概率 密度 函数 ) 的 另 一 种 表述 . 它 并 不 是 特别 直观 的 , 但 是 在 解决 
某 些 类 型 的 数学 计算 时 很 方便 . 


@ 原文 为 变换 , 按 国内 术语 译 成 矩 母 函 数 . 一 一 译 者 注 
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一 个 与 随机 变量 X 相关 的 和 矩 母 函 数 是 一 个 参数 。 的 函数 Mx(s), 定义 如 下 
Mx(s) = Eles*]. 


当 从 上 下 文中 可 以 明显 看 出 所 指 随机 变量 是 X 时 , 矩 母 函数 也 可 以 简 记 为 M(s). 
更 具体 地 , 当 XX 是 一 个 离散 型 随机 变量 时 , 相关 甜 母 函数 为 


M(s) = 》 ,eszpx(z)， 
当 X 是 连续 型 时 , 有 _ 
M(s) = / esz fx(z)dzr.® 
下 面 给 出 矩 母 函 数 的 一 些 例 子 . 


例 4.22 设 
1/2， 若 rz= 2， 
Dx(Z) = 二 41/6， 若 z=3, 
1/3， 若 z=5. 
则 相应 的 矩 母 函 数 为 ] ] 1 
M(s) 一 30 十 8e” 十 3e 口 


例 4.23 ( 泊 松 随机 变量 的 矩 母 函数 ) ” 设 随机 变量 XX 服从 参数 为 和 的 泊 松 分 布 : 
和 ze 一 ^ 


Px(2) = i; T=0,1,2,.…, 
则 其 矩 母 函数 如 下 所 示 、 
es sr ATe 
M(s) = 2° i 
记 a = es 和 , 则 
M(s) =e * 》， =e Me 一 ec = eM : 口 


例 4.24 (指数 随机 变量 的 矩 母 函数 ) ” 设 随 机 变量 X 服从 参数 为 的 指数 分 布 
fx(z) = Xe >z， Z 之 0， 


四 对 Laplace 变换 熟悉 的 读者 可 能 会 发 现 一 个 连续 型 随机 变量 的 相关 氮 母 函数 和 它 的 概率 密度 函数 
的 Laplace 变换 是 基本 相同 的 , 唯一 的 区 别 是 Laplace 变换 通常 使 用 e-s? 而 不 是 esz. 对 于 离散 
型 的 情况 , 变量 z 有 时 取代 es, 得 到 的 秆 母 函 数 M(z) = 并 。zzpx(z) 称 作 xz 变换. 但 是 , 本 书 中 
不 会 使 用 z- 变换 . 
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则 
M(s)=A [ es?e— >zdz 
0 
= els—Nrdz 
0 
- > ” ( 当 s< 入 时 ) 
入 
AAA 一 5 
以 上 运算 和 M(s) 的 公式 仅 在 s < 入 下 成 立 , 否则 积分 为 无 穷 . 口 


重要 的 是 要 认识 到 知 母 函数 不 是 一 个 数 而 是 一 个 参数 为 s 的 函数 . 严格 地 说 ， 
M(s) 只 在 使 得 ElesX] 有 限 的 上 有 定义 . 上 一 个 例子 已 经 说 明了 这 个 事实 . 
例 4.25 (随机 变量 线性 函数 的 矩 母 函数 ) ” 记 Mx(s) 为 随机 变量 X 的 矩 母 函数 ， 
考虑 新 随机 变量 Y = aX + 的 矩 母 函数 . 由 和 矩 母 函数 定义 , 有 


My(s) = Eles(eX+6)] 二 esbE[leseX] 二 eb Mx (sa). 


例如 , 如 果 X 服从 参数 入 = 1 的 指数 分 布 , 则 Mx(s) = 1/(1 一 s), 且 如 果 Y = 2X+3， 
则 


1 
My(s) =e3——. 口 
Y(s) =e IT 一 下 


例 4.26 ( 正 态 分 布 随机 变量 的 矩 母 函数 ) ” 记 X 为 服从 均值 为 人、 方差 为 o? 的 正 
态 随机 变量 . 为 了 计算 它 的 矩 母 函数 ,首先 我 们 考虑 标准 正 态 随机 变量 Y 的 情况 ， 
对 Y 有 4=0,o?=1. 求 出 Y 的 抢 母 函数 以 后 , 再 应 用 前 面 例子 里 推出 的 公式 ， 
导出 X 的 矩 母 函数 . 标准 正 态 分 布 的 密度 函数 为 

1 


fy(y) 一 需 宁 人 


相关 和 挎 母 函数 为 
My(s) = 人 _ dt 
1 /fc 
~ 一 ( /2)+syd 
V2T / ° Y 
- /2 / /+oy(/9) dy 


WT /J—o0 


es/2_ 1 / Gaz/2dy 
V27 /一 ce 
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其 中 , 最 后 一 个 等 号 是 利用 正 态 分 布 密度 函数 积分 为 1 的 结果 . 均值 为 J、 方 差 为 
o? 的 正 态 随机 变量 可 表 成 标准 正 态 随机 变量 的 线性 函数 ; 


及 一 IY 十 内 . 
而 标准 正 态 随机 变量 Y 的 矩 母 函数 为 My(s) = e” /2, 应 用 例 4.25 中 的 公式 , 有 
Mx(s) = e*My(so) = e(c 。 /2)+He， 口 


4.4.1 ”从 和 矩 母 函 数 到 和 矩 


“和 扼 母 函数 ” 这 一 名 称 是 由 于 随机 变量 的 和 矩 可 以 通过 矩 母 函 数 的 公式 轻易 计算 
出 而 得 来 的 . 为 验证 这 一 点 , 现在 考虑 一 个 连续 型 随机 变量 X, 根据 定义 


M(s) = 广 es fx(z)dz 
在 M(s) 定义 式 两 边 取 s 的 导数 
za) = 六 es jx(z)dz 


~ qd 
- 人 xdc 


一 广 ze fx(z)dz 
上 面 的 等 式 对 s 取 任何 值 都 成 立 ". 考虑 s = 0 时 的 特殊 情况 , 有 
FM)|, ,= /zfxGjdz= EL] 
更 广泛 地 ， A M(s) 取 n 次 的 导数 , 通过 类 似 的 计算 有 


和 MG -人 zx(zjdz = EIX". 
例 4.27 我 们 在 前 面 ( 例 4.22) 已 知 
1/2， 若 rz= 2， 
px(7) 二 $1/6， 若 z=3， 
1/3， 若 z = 5. 


@ 这 个 导数 涉及 微分 和 积分 次 序 的 交换 .这 种 交换 对 本 书 讨论 的 所 有 情况 都 适用 更 进一步 ， 对 于 
一 般 的 随机 变量 这 种 积分 和 微分 的 次 序 都 是 可 交换 的 (包括 离散 型 随机 变量 ). 事实 上 , 下 面 更 抽象 
的 等 式 也 是 成 立 的 : 


EM(s) = Ble'*)] 一 也 E = E[Xe’X] 
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其 相关 和 矩 母 函数 为 ] 1 ] 
M(s) = er 十 8” 十 了 8 


因此 ， 


EIX] = A M(s) 


ds 0 


1 1 1 
= 本 2e 十 有 3e + 3 


5 一 0 
-325 
_ 19 
6 
同时 
d2 
BEIX 一 Asz MM (5) S 一 0 
= 3 .4e2 十 5 9e3s 十 3 -25e | 
1 1 1 
一 了 448 9+3 25 
_71 
= 下. 
指数 随机 变量 的 概率 密度 函数 为 
jx(z) =M "~, £2>0, 
前 面 已 得 、 
M(s) = 入 一 5 
因此 ， ， 
d 入 d 2 入 
js M5) = Cs5， jzM(s) = Dy 
令 s=0, 有 
EI[X] = 1 E[X?] = 2 
= 和， = 总 ， 
这 和 第 3 章 中 推出 的 公式 相 吻 合 . 口 


我 们 以 矩 母 函 数 的 两 个 更 有 用 且 普 遍 的 性 质 结束 本 节 . 对 于 任意 的 随机 变量 
和 有 


Mx(0) = Eleo%] = E[1] = 1, 
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且 如 果 X 仅 取 非 负 整 数值 时 , 有 
im Mx(s) = P(X =0) 


( 见 本 章 末 习题 ). 
4.4.2 和 托 母 函数 的 可 弟 性 

箱 母 函数 Mx(s) 的 一 个 非常 重要 的 性 质 是 它 可 道 , 即 可 用 它 来 确定 随机 变量 
X 的 概率 律 . 当然 , 为 了 使 矩 母 函 数 Mx(s) 能 够 确定 相应 的 概率 律 , 一 些 合适 的 数 
学 条 件 是 必要 的 . 幸运 的 是 , 我 们 所 列举 的 例子 中 的 矩 母 函 数 都 满足 这 些 条 件 . 下 
面 是 一 个 更 精准 的 描述 , 其 证 明 已 经 超出 了 本 教程 的 范围 . 


和 矩 母 函 数 可 逆 的 条 件 
假定 随机 变量 XX 的 托 母 函数 Mx(s) 满足 : 存在 一 个 正 数 a, 对 在 区 间 [一 oa] 


中 的 任意 s, Mx(s) 都 是 有 限 的 , 则 伦 母 函数 Mx(s) 唯一 地 决定 X 的 分 布 函数 . 


实际 上 , 有 明显 的 公式 可 以 让 我 们 从 随机 变量 的 矩 母 函数 导出 它 的 分 布 列 或 概 
率 密度 函数 , 但 是 使 用 起 来 相当 困难 . 实际 上 , 矩 母 函数 通常 可 以 基于 已 知 分 布 - 矩 
母 函数 组 合 的 表格 , 通过 “类 型 配合 ” 进行 反 演 . 下 面 来 看 一 些 这 样 的 例子 . 
例 4.28 已 知 随 机 变量 X 的 相关 秆 母 函 数 为 
1 1 1 1 


in—3 二 nds on58 
M(s) = 7e +3+se +se . 


因为 M(s) 是 es 的 代数 和 , 我 们 可 以 与 离散 随机 变量 的 矩 母 函数 的 通用 公式 
Mt({s) = 》， esDpX(Z) 


相 比 较 , 通过 比较 可 以 推出 X 是 一 个 离散 型 随机 变量 . X 的 取 值 范围 可 以 从 相应 
的 指数 读 出 来 , 即 -1, 0, 4 和 5. 取 每 个 z 值 的 概率 可 以 从 es 前 面 乘 的 系数 得 到 
在 本 例 中 , 即 


P(X =-1)=3, P(X =0)=2, P(X =4)=3, P(X -5) = 口 


从 上 面 的 例子 可 以 看 出 , 一 个 只 取 有 限 个 值 的 离散 型 随机 变量 的 分 布 可 以 通过 
观察 其 矩 母 函 数 得 出 . 同样 , 这 样 的 方法 对 于 取 可 数 无 限 多 个 值 的 离散 型 随机 变量 
也 有 效 , 可 见 下 例 . 

例 4.29 (几何 随机 变量 的 矩 母 函数 ) ”已 知 随机 变量 X 的 矩 母 函 数 为 


pes 
MS) = 1 pe 
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这 里 p 是 一 个 常数 , 且 0 < p < 1. 我 们 想 要 求 出 X 的 分 布 . 由 儿 何 级 数 公 式 得 
ltatot.. ， 

上 式 对 于 任意 满足 lal < 1 的 a 都 成 立 . 我 们 对 a = (1 - p)es 运用 此 公式 , 这 里 要 

求 s 充分 接近 0 使 得 (1 - p)es < 1. 此 时 , 矩 母 函 数 具 有 展开 式 


M( 人 =pes(1+( -pies 二 (1 一 p)2e2s 二 (Lp)aess 十 …)， 


将 这 个 式 子 与 上 例 中 一 般 离散 随机 变量 的 矩 母 函 数 的 表达 式 比较 , 可 知 M(s) 所 对 
应 的 随机 变量 是 个 取 正 整数 值 的 离散 型 随机 变量 .概率 P(X = k) 可 以 通过 读 取 
eks 的 系数 得 到 . 特别 地 , P(X = 1) = p, P(X=2) = p(1 一 p), 一般 地 有 


P(X=k)=p(1—p)*!, k=1,2,... 


可 见 这 个 分 布 正 是 参数 为 p 的 几何 分 布 . 

注意 d 3 (1 ) 2s 

pe 一 D)pe 
IE 

当 s= 0 时 , 右边 等 于 1/p, 这 和 第 2 章 推出 的 E[X] 公式 相符 . 口 
例 4.30 (混合 分 布 的 矩 母 函数 ) ”已 知 附近 银行 有 三 位 交易 员 , 两 位 快速 交易 员 ， 
一 位 慢 速 交易 员 . 已 知 交 易 员 为 一 名 客户 服务 的 时 间 服 从 指数 分 布 , 快速 交易 员 对 
应 的 参数 和 = 6, 慢 速 交易 员 对 应 的 参数 入 = 4. 简 来 到 银行 , 随机 选择 了 一 位 交易 
员 , 每 位 交易 员 被 选中 的 概率 为 1/3. 试 求 出 服务 简 的 时 间 的 概率 密度 消 数 和 甜 母 
函数 . 

记 六 为 简 接受 服务 的 时 间 , 我 们 有 

fx(7z) = 3 ‘6e 52+ 3 .4e- 徊 ， 了 > 0. 

相应 的 矩 母 函 数 为 


M(s)= /= " (3: 6e-6z 十 +3.4) dz 


1 oo 
3 esz6e-6zdyz 十 二 / esz4e-4zd7z 
0 3 Jjo 


3 
2 6 1 4 、 
3 6s 4s ( 当 s <4 时 ). 


更 一 般 地 , 设 X1，,… ,X， 为 密度 函数 fx,,… , fx。 的 连续 型 随机 变量 . 随机 变量 
Y 的 一 个 值 y 是 这 样 取得 的 : 先 随机 地 选 出 指标 i, 选 到 i 的 概率 为 p;, 如 果 指 标 
i 被 选中 , y 即 取 X; 的 值 . 此 时 , Y 的 概率 密度 函数 为 


fy(y) = p1fx(y) + + pnfx, (yy) 
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相应 的 矩 母 函 数 为 
My(s) = p1Mx(s) 十 十 pnMXn(5)， 


反 过 来 , 我 们 也 可 从 和 拖 母 函数 求 出 相应 的 分 布 . 例如 , 已 知 随机 变量 Y 的 矩 母 
函数 有 如 下 形式 : 


1 
2 2-s 4 1-s. 
将 这 个 函数 可 改写 为 


4 2-5 4 1 一 8， 
可 见 Y 是 两 个 参数 分 别 为 2 和 1 的 指数 随机 变量 的 混合 变量 , 这 两 个 变量 被 选中 
的 概率 分 别 为 1/4 和 3/4. 口 
4.4.3 独立 随机 变量 和 


矩 母 函数 的 方法 对 于 处 理 随 机 变量 和 的 问题 尤其 便利 . 我 们 将 看 到 , 独立 随机 
变量 的 和 的 短 母 函数 是 和 项 的 矩 母 函 数 的 乘积 . 这 样 也 提供 了 卷 积 公式 之 外 的 另 一 
个 便利 的 公式 . 

记 关 和 Y 为 独立 的 随机 变量 , 并 记 2 = X 十 世 根据 定义 , Z 的 矩 母 函 数 为 


Msz(s) 一 Ele’?] 二 Eles(X+Y)] 二 ElesXesY]. 


因为 X 和 了 了 是 独立 的 , 对 于 任意 的 s, es*x 和 esY 是 相互 独立 的 随机 变量 , 因此 ， 
它们 乘积 的 期 望 即 为 它们 期 望 的 乘积 , 即 


Mz(s) = Ele” ]Ele ] = Mx(s)My(s). 
同样 地 , 如 果 X1,… ,X 是 独立 的 随机 变量 , 且 
Z = Xi1+ .+ Xn, 
相应 的 矩 母 函数 之 间 有 下 面 的 关系 ; 
Mz(s) = Mx, (s)... Mx, (s). 


例 4.31 (二 项 随机 变量 的 矩 母 函数 ) ” 设 X1,… ,Xi 为 独立 的 伯 努 利 随 机 变量 , 参 
数 都 为 p. 按 定 义 , 不 难得 到 


Mxi(s) = (1—p)e® 十 pe =1—p+pe’, Vi. 
随机 变量 2 = Xi 十 … 十 XX 服从 参数 为 n 和 p 的 二 项 分 布 , 相应 的 矩 母 函 数 为 


Mz(s) = (1 — p+ pe’)”. 口 
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例 4.32 (独立 泊 松 随机 变量 之 和 仍 为 泊 松 随机 变量 ) ” 设 X 和 Y 为 两 个 相互 独 
立 的 泊 松 随机 变量 , 均值 分 别 为 和 j. 由 例 4.23 知 ， 


Mx(s)=e*® -Dd), My(s) = exe 0. 
记 2Z= 义 二 由 于 XX 和 Y 相互 独立 ， 
Mz(s) = Mx(s)My(s) = e*® “Vere -1) 一 e+Ate 一， 
因此 , Z 的 矩 母 函数 和 均值 为 +A 的 泊 松 随机 变量 的 矩 母 函数 相同 . 根据 矩 母 函 
数 的 唯一 性 , 2 服从 均值 为 +4 的 泊 松 分 布 . 口 
例 4.33 (独立 正 态 随机 变量 之 和 仍 为 正 态 随机 变量 ) ” 设 和 和 YY 为 两 个 相互 独 
立 的 正 态 随机 变量 , 均值 分 别 为 la, jw 方差 分 别 为 o2, o2. 记 2 = 和 十 Y, 则 
Mx(s) =e tts, MG 一 ee 


且 2 21352 
{c3 十 cy)a 
Mza(s) = Hotpoe 


因此 , 2 的 矩 母 函 数 与 均值 为 iu 十 方差 为 02 +o2 的 正 态 随机 变量 的 矩 母 函数 


相同 . 根据 矩 母 函 数 的 唯一 性 , 2 服从 上 述 参 数 的 正 态 分 布 . 这 与 4.1 节 中 根据 卷 
积 公式 计算 出 来 的 结果 是 一 样 的 , 口 


和 矩 母 函数 及 其 性 质 的 小 结 
。 随机 变量 X 的 扰 母 函数 定义 如 下 : 


5 erpx(z)， 车 XX 为 离散 型 
Mx(s) = Elesx] = 4 = 


人 ”efx(z)dz， 著 XX 为 连续 型 


。 随机 变量 的 分 布 完全 由 它 的 矩 母 函数 确定 . 
。 利用 算 母 函数 计算 随机 变量 的 各 阶 秆 : 


SMx(s)| =EX), 4d 


ds s=0 ， a Mx(s) s=0 了 EX， 


。 若 Y=aX+b, 则 My(s) = eMx(as). 
。 若 和 了 相互 独立 , 则 Mx+Y(s) = Mx(s)My(s). 


我 们 已 经 得 到 了 一 些 常 见 随机 变量 的 矩 母 函数 的 公式 .我 们 也 可 以 用 适量 的 
代数 学 知识 , 对 许多 其 他 的 分 布 推导 类 似 的 公式 ( 见 本 章 末 有 关 均 匀 分 布 的 习题 ). 
现 将 这 些 结果 列 于 下 面 的 表格 中 . 


4.4 给 母 函 数 209 


常见 的 离散 随机 变量 的 矩 母 函数 
。 参数 为 p 的 伯 努 利 分 布 (k = 0,1) 


D， 若 上 二 1， , 
px(k) = Mx(s)=1—p+pe’. 
1 一 p， 若 ==0. 


© 参数 为 (n, p) 的 二 项 分 布 ， (k= 0,1,... ,1) 
px(® = (md ph Mx() = 0 -p+pe")" 


。 参数 为 p 的 几何 分 布 (k= 1,2,…) 


Px(k) = p(1 — p)*-1, Mx(s) = De” 


— (1—p)es 
。 泊 松 分 布 , 参数 为 A (k 王 0,1,:…) 
eX A(e’—1) 
px(k) = 一 有， Mx(s)=€ . 
. (a,5b) 上 的 均匀 分 布 (k=a,a+t1,...,b) 
1 eas e(b-otl)s _ 1] 


k) = 一 一 一 ， 一 . 
Dx(k) b—a+t+l Mx(s) b—at+l es—1 


常见 连续 随机 变量 的 矩 母 函 数 


。(w 昌 上 的 均 久 分 布 (as<z 划 
1 esb — esa 
fx(7) = Fa Mx(s) = Fa 5 
。 参数 为 和 的 指数 分 布 (z>0) 
jx(z) = Ne”, Mx(s) = (s < A). 
。 参数 为 (y,o?) 的 正 态 分 布 (oo0 < z < oo) 
fx(z) 一 -0 Mx(s) _ ee(c2s2/2)+us 


4.4.4 联合 分 布 的 矩 母 函数 


如 果 两 个 随机 变量 X 和 Y 通过 联合 分 布 来 描述 (例如 是 联合 概率 密度 函数 )， 
那么 每 个 变量 都 有 一 个 矩 母 函 数 Mx(s) 和 My(s)， 它们 是 边缘 分 布 的 矩 母 函 数 ， 
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不 包含 任何 关于 这 两 个 随机 变量 相依 性 的 信息 . 而 两 个 随机 变量 相依 性 的 信息 包含 
在 多 元 矩 母 函数 中 , 下 面 给 出 定义 . 

考虑 同一 试验 中 的 n 个 随机 变量 X1,…. , Xn. 记 si,… ,sn 为 无 量 纲 实 参数 . 
多 元 矩 母 函数 是 这 n 个 参数 的 函数 , 它 定 义 为 


Mxi,... ,Xn (51， 全 , Sn) 一 Eles:Xitten Xn]. 


前 面 讨论 过 的 矩 母 函 数 的 可 逆 性 可 以 推广 到 多 元 情形 , 即 如 果 六,… ,Yi, 是 另 一 组 
随机 变量 ， 且 Mx1,... (0s1， , Sn) 与 My ,Y, (81, “ , Sn) 相同 ， 则 X1,.. ,Xn 
的 联合 分 布 与 六 ,… ,Yh 的 联合 分 布 相同 . 


4.5 ”随机 数 个 相互 独立 的 随机 变量 之 和 


到 现在 为 止 , 我 们 讨论 过 的 随机 变量 求 和 的 问题 中 , 总 是 假定 随机 变量 个 数 是 
已 知 且 固定 的 . 在 本 节 中 , 我 们 考虑 这 样 的 情况 : 在 随机 变量 求 和 的 过 程 中 , 随机 
变量 的 数目 本 身 也 是 随机 的 . 特别 地 , 我 们 考虑 


Y=Xi+:…: 十 XN， 


这 里 N 是 个 取 正 整数 值 的 随机 变量 , Xi, Xa,.… 是 同 分 布 的 随机 变量 (如 果 N = 0， 
则 定义 YY = 0). 假定 N, Xi, Xo,… 彼此 独立 , 即 这 些 随机 变量 的 任意 有 限 子 集 都 
是 独立 的 . 

下 面 我 们 记 E[X] 和 var(X) 分 别 为 X; 的 公共 的 均值 和 方差 . 我 们 想 要 求 出 
Y 的 均值 、 方差 和 算 母 函数 . 我 们 使 用 的 方法 为 先 给 定 一 个 条 件 N = n, 这 样 我 们 
就 将 情况 转化 为 常见 的 情况 : 求 固定 数目 随机 变量 和 的 问题 . 

确定 某 非 负 整数 n. 随机 变量 XI 十 :+ 与 N 独立 . 由 此 可 知 , XI 十 .十 成。 
与 事件 {N = n} 相互 独立 , 因此 ， 


EIY|IN = n]=E[Xi 二 … 十 XNw|N = 
=E[Xi +.…+ Xn|N = 
=E[X1 + .+ Xl 
=nE[X]. 


这 对 于 任意 正 整数 ”都 成 立 . 因此 


EIY|IN] = NEIX]. 
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使 用 重 期 望 法 则 , 有 
E[Y] = E[EIYIN]] = 了 LVEIX]] = 了 XIELV]. 
类 似 地 ， 
var(Y|IN =n)=var(Xi++:…+ XNIN = n) 
二 Var(X1 十 .… 十 Xn) 
=nvar(X). 
因为 这 对 任意 正 整数 ”都 是 成 立 的 , 随机 变量 var(Y|N) 等 于 Nvar(X). 我 们 现在 
运用 全 方差 法 则 得 
var(Y)=E[lvar(Y|N)] + var(E[Y|N]) 
=E[Nvar(X)] + var(NE[X)] 
=E[N]var(X) + (E[X)])?2var(N). 

和 矩 母 函数 的 计算 和 上 面 的 计算 类 似 ， 基 于 条 件 N = n 的 了 的 矩 母 函数 为 
Eles|V = J. 但 是 , 基于 N = n 的 条 件 , Y 是 独立 随机 变量 XX,… ,XX 的 和 , 且 
Ele’Y|N =n]=Ele’X:!...eXNx|N=n] 

=ElesX: ss es%n] 

=E[les*:]... ElesX"] 

= (Mx(s))", 
这 里 Mx(s) 为 Xi 的 矩 母 函 数 (对 于 任意 ). 运用 重 期 望 法 则 , Y 的 (无 条 件 ) 算 
母 函数 为 


My(s) = Ele” ] = E[E[le™ |N]] = E[(Mx(s))"*] = > (Mx(s))"pw(n). 


n=1 


与 下 列 公式 相对 照 


MN(s) = Ele’”] = 2_(e’)"pn(n), 
可 见 My(s) 和 Mw(s) 形式 完全 相同 , 或 者 等 价 地 , 将 Mw(s) 的 表达 式 中 所 有 es 
用 Mx(s) 替换 即 可 得 到 My(s). 
下 面 总 结 推导 出 的 性 质 如 下 . 
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随机 数 个 相互 独立 随机 变量 之 和 的 性 质 
记 X1,X2,… 为 均值 J、 方差 o” 的 同 分 布 随机 变量 . 记 为 取 值 于 正 整数 
的 随机 变量 . 我 们 假定 上 述 所 有 变量 相互 独立 ,下 面 考虑 变量 和 


Y= X14+...+ XN. 


那么 : 
e ElY] = EIX]EIN]. 
e var(Y) = var(X)E[IN] + (EL[X])?var(N). 
。 矩 母 函数 My(s) 可 由 计算 集 母 函数 MN(s) 的 公式 得 到 , 将 其 中 的 es 全 
部 替换 成 Mx(s) 即 可 . 


例 4.34 ”一 个 遥远 的 村 庄 有 三 家 加 油 站 . 每 家 加 油 站 在 任意 一 天 营业 的 概率 都 是 
1/2, 而 且 各 家 的 营业 与 否 都 是 相互 独立 的 . 各 家 加 油 站 的 汽油 存量 是 相互 独立 的 
随机 变量 , 其 分 布 都 是 0 到 1 000 加 仑 之 间 的 均匀 分 布 . 我 们 想 要 刻画 营业 的 加 油 
站 汽油 存量 总 和 的 概率 分 布 规律 . 

营业 加 油 站 的 数目 N 是 服从 p = 1/2 的 二 项 随机 变量 , 相应 的 矩 母 函 数 为 


My(s) = (Lp 二 pe98 = 3(1 + 0°)’. 


每 家 营业 的 加 油 站 的 汽油 存量 的 相应 矩 母 函 数 Mx(s) 为 
el 000s _ 1 

~ 1000s 

汽油 存量 总 和 YY 的 相应 矩 母 函数 可 通过 Mw(s) 来 计算 , 把 Mn(s) 公式 中 的 es 蔡 
换 成 Mx(s) 即 可 , 即 有 


Mx(s) 一 


MW -B+ (Too) nD 


例 4.35 (个 数 服从 几何 分 布 的 独立 指数 随机 变量 之 和 ) 简 为 买 一 本 《远大 前 程 》 
的 书 针 了 很 多 家 书店 . 每 家 书店 有 这 本 书 的 概率 都 是 p, 且 与 其 他 书店 相互 独立 . 选 
任意 一 家 书店 , 简 停 留 的 时 间 都 是 随机 变量 , 服从 参数 为 和 的 指数 分 布 , 直到 她 找 
到 这 本 书 或 者 她 肯定 这 家 书店 没有 这 本 书后 才 离 开 ， 假定 简 会 一 直选 下 去 直到 她 
买 到 这 本 书 , 且 她 在 每 家 书店 停留 的 时 间 与 其 他 任何 事情 都 独立 . 我 们 希望 求 出 简 
选 书店 的 时 间 总 和 的 均值 、 方 差 和 概率 密度 函数 . 

简 和 逛 的 书店 数目 N 服从 参数 为 p 的 几何 分 布 . 因此 , 在 书店 中 花费 的 总 时 间 
Y 是 NN 个 独立 同 分 布 指数 随机 变量 X1, X2,… , Xn 的 和 , 其 中 变量 X; 服从 指数 
分 布 , 参数 为 和 . 我 们 有 
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运用 几何 分 布 和 指数 分 布 随机 变量 的 方差 公式 , 得 到 


var(Y) = E[N]var(X) + (E[X])?var(N) = 3 : 总 十 坪 : -3 = WF 


为 得 到 和 矩 母 函 数 My(s), 首先 有 


入 pes 
Mx(s)= ss Mn(s)= ID 


将 MN(s) 公式 中 每 个 es 都 换 成 Mx(s), 即 得 


pA 
Mx(s) A—s 
My(s) = 和 = 一 全 一， 
— (1 —p)Mx(s) 入 
DX 1—(1 一 臣 X 
经 过 化 简 可 得 、 

My(s) = 了 
pA—s 


这 就 是 服从 参数 为 pA 的 指数 随机 变量 的 矩 母 函数 , 所 以 ， 
fy(y)=pMe ?YY, y>0. 


这 个 结果 很 令 我 们 惊讶 , 因为 定数 n 个 独立 指数 随机 变量 和 反而 不 服从 指数 分 布 . 
例如 , 当 n = 2 时 , 变量 和 的 和 矩 母 函 数 为 (A/(M - s))?, 这 与 指数 随机 变量 的 矩 母 函 
数 不 相符 . 口 
例 4.36 (个 数 服从 几何 分 布 的 独立 几何 随机 变量 之 和 ) ”本 例 是 与 前 例 对 应 的 一 
个 离散 类 型 . 我 们 记 N 服从 参数 为 p 的 几何 分 布 . 同时 记 每 个 随机 变量 X; 服从 参 
数 为 g 的 几何 分 布 . 假定 这 些 随机 变量 都 是 独立 的 . 记 Y = Xi 十 … 十 Xn, 我 们 有 
qe” 


My(s)=— 2 Mx(s) 一 ID 


1— (1—p)es’ 
为 了 计算 My(s), 先 从 计算 Mn(s) 的 公式 入 手 , 并 且 将 公式 中 出 现 的 es 都 用 Mx (s) 
替换 . 这 样 有 Mx(s) 
PMXIS 
Ar 全 一 TMG 
经 过 计算 , 有 


加 Dae” 
0 2q)e” 


这 样 即 推断 出 Y 服从 参数 为 pg 的 几何 分 布 . 口 
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4.6 ”小结 和 讨论 


在 本 章 , 我 们 学 习 了 很 多 内 容 . 这 里 我 们 总 结 一 下 其 中 的 一 些 重点 . 

在 4.1 节 里 , 我 们 介绍 了 一 个 连续 随机 变量 X 的 函数 g(X) 的 概率 密度 函数 
的 计算 方法 .运用 分 布 函数 的 概念 非常 有 用 .特别 地 , g(X) 的 密度 函数 是 通过 计 
算 它 的 分 布 函数 , 然后 对 其 进行 微分 而 得 到 的 . 在 很 多 情况 下 , 9(X) 是 严格 单调 函 
数 , 那么 可 以 通过 特殊 的 公式 来 直接 计算 密度 函数 . 我 们 同时 也 考虑 了 两 个 连续 随 
机 变量 函数 g(X,Y) 的 密度 函数 的 计算 问题 . 特别 地 , 我 们 推导 出 两 个 独立 随机 变 
量 和 的 概率 密度 的 卷 积 公式 . 

在 4.2 节 , 我 们 介绍 了 协 方差 和 相关 系数 的 概念 , 它们 都 是 量化 两 个 随机 变量 
之 间 的 关系 大 小 的 指标 . 协 方差 , 相关 系数 都 可 以 用 于 计算 相关 的 随机 变量 和 的 总 
方差 . 它们 在 8.4 节 中 线性 最 小 二 乘 估 计 方 法 也 会 大 有 作为 . 

在 4.3 节 中 , 我 们 重新 考虑 关于 条 件 的 话题 , 目的 是 导出 条 件 期 望 和 条 件 方差 
的 有 用 工具 . 对 条 件 期 望 进行 了 大 量 的 研究 和 分 析 , 结果 表明 条 件 期 望 可 视 为 随机 
变量 , 也 有 自己 独特 的 期 望 和 方差 . 我 们 推导 了 许多 性 质 , 包括 重 期 望 法 则 和 全 方 
差 法 则 . 

在 4.4 节 中 , 我 们 介绍 了 随机 变量 的 矩 母 函 数 以 及 和 矩 母 函数 是 怎么 算出 来 的 . 
反 过 来 , 我 们 指出 给 定 一 个 矩 母 函 数 , 这 个 与 矩 母 函 数 相关 联 的 随机 变量 的 分 布 是 
唯一 确定 的 . 对 于 常用 的 随机 变量 , 可 利用 和 矩 母 函数 表 查 到 其 相应 的 矩 母 函 数 . 我 
们 发 现 矩 母 函 数 有 以 下 很 多 有 用 的 用 途 ; 

(a) 随机 变量 的 抢 母 函数 提供 了 一 种 计算 随机 变量 矩 的 捷径 ; 

(b) 两 个 独立 随机 变量 和 的 和 抢 母 函数 等 于 它们 各 自 撼 母 函 数 的 乘积 , 这 个 性 质 
用 来 说 明 两 个 独立 正 态 ( 泊 松 ) 随机 变量 的 和 也 是 正 态 ( 泊 松 ) 分 布 ; 

(c) 矩 母 函数 可 以 用 来 确定 个 数 为 随机 数 的 随机 变量 和 的 分 布 ( 见 4.5 节 ), 其 
他 的 方法 是 不 可 能 做 到 这 一 点 的 . 

最 后 在 4.5 节 中 , 我 们 推导 出 个 数 为 随机 变量 的 独立 随机 变量 和 的 均值 、 方差 
和 甜 母 函数 的 计算 公式 , 这 其 中 综合 运用 了 4.3 节 和 4.4 节 中 的 方法 . 
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4.1 节 ”随机 变量 函数 的 分 布 密度 函数 


1 如果 和 是 -1 到 1 之 间 的 均匀 随机 变量 , 求 出 VIX| 和 一 ln|X| 的 密度 函数 . 

2. 试用 X 的 密度 函数 来 表示 e” 的 密度 函数 . 然后 求 出 当 X 服从 [0,1] 区 间 的 均匀 分 布 
时 , e 的 密度 函数 . 

3. 试用 X 的 密度 函数 来 表示 |X|' 和 |X|!/4 的 密度 函数 . 


10. 


11. 


12. 
13. 


14. 
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城 铁 从 早上 6:00 开始 , 每 隔 15 分 钟 到 达 你 家 附近 的 车 站 . 你 每 天 早晨 在 7:10 到 7:30 之 
间 的 某 时 刻 到 达 车 站 . 设 到 达 时 间 为 一 个 随机 变量 , 其 分 布 已 知 ( 见 第 3 章 中 例 3.14 的 
分 布 ). 记 XX 为 你 到 达 车 站 的 时 刻 与 7:10 之 间 的 时 间 长 度 (单位 : 分 钟 ). 记 Y 为 你 上 
车 之 前 需要 等 待 的 时 间 . 试用 XX 的 分 布 函数 来 表示 Y 的 分 布 函数 , 然后 求 导 , 计算 了 
的 密度 函数 . 

设 X 和 YY 是 相互 独立 的 随机 变量 , 均 服 从 [0, 1] 的 均匀 分 布 , 求 |X 一 了 | 的 分 布 函 数 和 
密度 函数 . 

在 笛 卡 儿 坐 标 系 中 , 设 (X,Y) 是 在 三 点 (0, 1), (0, 一 1), (1,0) 围 成 的 三 角形 内 均匀 分 布 
的 随机 点 , 求 出 |X 一 Y| 的 分 布 函数 和 密度 函数 . 

从 区 闻 [0,1] 中 随机 地 、 独立 地 、 均匀 地 选 出 两 个 点 , 证 明 这 两 个 点 之 间距 离 的 期 望 值 是 
1/3. 

设 X 和 了 是 相互 独立 的 随机 变量 , 均 服 从 参数 为 和 的 指数 分 布 , 求 Z = X+TY 的 密 
度 函 数 . 

再 次 考虑 例 4.9, 但 是 假设 X 和 YY 分 别 服从 参数 为 和/ 的 指数 分 布 , 求 Z 二 XX 一 Y 
的 密度 函数 . 

设 X 和 是 相互 独立 的 随机 变量 , 它们 的 分 布 列 如 下 : 


1/2， 若 y= 0， 

1/3， 若 z= 1,2,3, | 1/3， 若 y= 1 

ro 人 其 他 ; PY)= 1/6， 若 y= 2， 
0， ”其 他 ， 


请 用 卷 积 公式 计算 2 = 多 十 Y 的 分 布 列 . 

请 用 卷 积 公式 证 明 : 两 个 分 别 服从 参数 为 入 和 1 的 泊 松 分 布 的 随机 变量 之 和 仍然 是 泊 
松 分 布 , 其 参数 为 入 十 几 

设 X,Y,Z 是 服从 区 间 [0,1] 的 均匀 分 布 的 独立 随机 变量 , 求 区 十 Y + 2 的 密度 函数 . 
设 一 个 密度 函数 只 在 区 间 [a, 上 取 正 值 , 且 关 于 区 间 中 点 (a 如 /2 对 称 , 设 式 和 立 相 
互 独立 , 且 具 有 这 样 的 密度 函数 . 如 果 已 经 计算 出 X +Y 的 密度 函数 , 如 何 计算 X 一 工 
的 密度 函数 . 

竞争 型 指数 分 布 . 设 两 蔓 灯 泡 的 寿命 X 和 Y, 相互 独立 , 且 分 别 服从 参数 为 入 和 的 
指数 分 布 . 则 首先 用 坏 的 时 间 是 


Z = min{X,Y}. 


试 证 明 : 2 也 是 服从 指数 分 布 , 参数 为 和 十. 


15.* 柯 西 随机 变量 


(a) 设 区 是 -1/2 与 1/2 之 间 均 匀 分 布 的 随机 变量 , 证 明 Y = tan(xX) 的 密度 函数 是 
fr(y) = 
(Y 称 为 柯 西 随机 变量 .) 


1 
ri +) 一 Do < < co， 
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(b) 设 Y 是 柯 西 随机 变量 , 设 X 是 位 于 一 n/2 和 r/2 之 间 的 角度 数 , 满足 tan(X) =Y. 
求 X 的 密度 函数 . 
解 (a) 首先 注意 到 Y 是 连续 的 , 且 关 于 X 的 严格 递增 的 函数 . 当 X € [1/2,1/2] 
时 , Y 的 取 值 空间 位 于 -ce 和 co 之 间 . 所 以 对 任意 实数 y， 
Py(y) =P(Y < 如 =Pltan(rX) <Y) = P(X < tan-!y) =3 +itan yy, 
最 后 一 个 等 式 是 运用 了 X 是 -1/2 与 1/2 之 间 均 匀 分 布 的 随机 变量 的 分 布 函数 的 
性 质 . 所 以 , 通过 求 导 , 并 利用 公式 d/dy(tan-1g) = 1/(L + 好), 我 们 可 以 得 到 : 对 
任意 的 实数 y， 1 
fr(y) = FID 
(b) 首先 计算 X 的 分 布 函数 , 然后 求 导 就 可 以 得 到 其 密度 函数 . 对 任意 的 -nxn/2< zx < 
nx/2, 我 们 有 
P(X < x)= P(tan !Y & 2) 
= P(Y < tan7z) 
1 tanz 1 
x /. TRY 
tanzx 


1 _1 
一 一 怀 
ztan Y 


= E(w + 5/2). 
当 z < 一 x/2 时 , P(X < z) = 0, 而 当 z > r/2 时 , P(X < z) = 1， 对 分 布 函数 


P(X < z), 进行 求 导 , 可 以 看 出 X 的 分 布 是 在 区 间 [x/2, 7/2] 上 的 均匀 分 布 . 
值得 注意 的 是 , 柯 西 分 布 的 一 个 有 趣 的 性 质 是 


> yy __f y _ 
| A) 
这 个 性 质 很 容易 验证 . 所 以 柯 西 分 布 没 有 期 望 值 , 尽管 分 布 关 于 0 点 对 称 . 见 3.1 节 中 
关于 连续 变量 期 望 的 定义 的 备注 . 
16.” 两 个 独立 正 态 随机 变量 的 极 坐标 . 设 X 和 YY 是 独立 的 标准 正 态 随 机 变量 . 对 (X,Y) 可 
以 使 用 极 坐 标 来 描述 , 记 R > 0 和 夹 角 日 s [0, 27], 则 
X= ReosB, Y= RsinG. 
(a) 证 明 日 在 区 间 [0, 2r] 均匀 分 布 , R 具有 密度 函数 
fr(7) = re /2, 了 0， 
并 且 RR 和 8B 相互 独立 . (随机 变量 RR 通常 称 为 瑞 利 分 布 .) 
(b) 证 明 R2 的 分 布 是 参数 为 1/2 的 指数 分 布 . 


注意 , 利用 该 题 的 结论 , 我 们 可 以 看 出 , 正 态 分 布 的 随机 样本 可 以 通过 独立 均匀 分 布 样本 
和 指数 分 布 样本 来 产生 . 
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解 (a) X 和 YY 的 联合 分 布 密度 是 


1 e-(e2+s2)1a 
fx,r (zy) = fx(x)fr(y) = 元 . 


现在 我 们 来 求 R 和 9 的 联合 分 布 . 固定 7 > 0 和 9 € [0,2x]. 定义 集合 4 是 点 
(z,9) 的 集合 : 点 的 极 坐标 (元 人 满足 0< F< 7, 且 0< 6< 09. 注意 , 集合 4 是 以 
7 为 半径 , 夹 角 为 9 的 扇形 . 所 以 


Fr,e(r,0)= P(RS7,O <0)=P((X,Y) € 4) 


人 "+ 3 | wp-r rara 
一 一 exp( 一 (Z 十 4 adzdy= 支 人 / exp( 一 FF )Fd7FdO 
寺 / /P+ /dy = 未 ep-7) 


最 后 一 个 等 式 利用 了 极 坐 标的 转换 . 求 导 , 可 得 


fr,elr,0) = hed) = 去 se r> 0,0 € [0, 2n]. 
因此 
2r 2 
fa(n)=/ frelr,0)d0 =re"/, >0 
0 
而 且 
feia(olr) = 站 ) - 亏 ， 0 € [0, 2x]. 


因为 日 的 条 件 分 布 函数 jia(blr) 与 R 的 值 无 关 , 所 以 , 它 必 与 无 条 件 密度 fe 是 
一 样 的 . 特别 地 ， fk,e(7,9) = fr(7)fe(9), 所 以 有 R 与 9 是 相互 独立 的 . 


(b) 记 上 之 0. 我 们 有 


— 


oo oo 
P(R >t)=P(R> Vt = / re /2dr = / edu = e@ /2, 
t/2 


vi 


这 里 我 们 运用 了 变量 替换 w =r?/2. 求 导 可 得 
fr2(t) = 3 t>0. 


4.2 节 ” 协 方 差 和 相关 


17. 假设 随机 变量 X 和 Y, 具有 相同 的 方差 , 证 明 : XX 十 Y 与 X 一 Y 不 相关 . 
18. 假设 有 4 个 随机 变量 , W, X, Y 2, 满足 


EI[W] = E[X] = E[Y] = EI2] = 0, 


var(W) = var(X) = var(Y) = var(2Z) = 1, 


假设 W, X,Y 2 相互 之 间 两 两 不 相关 . 计算 相关 系数 p(R,S) 和 p(R,T); 这 里 RR = 
三 十 XS=X 二 TY 以 及 了 了 = 二 2 
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19. 假设 随机 变量 X 满足 
E[LX] = 0，EIX2] = 1，B[X3] = 0，EIX4] = 3， 


定义 新 的 随机 变量 
Y=a+bX+ceX’. 
计算 相关 系数 p(X,Y). 
20.” 施 瓦 兹 不 等 式 . 证 明 对 任意 的 随机 变量 X 和 Y, 均 有 
(E[XY])? < ELX?*]E[Y?]. 


解 ”假设 EI[Y?] 关 0, 否则 , P(Y = 0) = 1, 有 EI[XY] = 0, 所 以 不 等 式 成 立 . 我 们 有 
E[XY] 


0gE [x -By Y)? 

2 _ » E[XY] (ELEXY]) ,2 

一 卫 [x 一 2 Ely XY + BY) Y 
2 

=E[X?] - 2 E[XY]+ E[IY3] 

_ mx2 (ELXY])? 

即 , (E[XY])? < ELX?]E[Y?]. 
21.*” 相关 系数. 考虑 随机 变量 X 和 Y 的 相关 系数 
_ cov(X,Y) 
p(X,Y) = rary 


并 假定 它们 的 方差 为 正 . 证 明 : 

(a) p(X,Y 了 )| < 1. 提示 : 用 上 题 的 施 瓦 兹 不 等 式 . 

(b) 如 果 Y 一 E[Y] 是 XE[X] 的 正 (或 负 ) 倍数 , 那么 p(X,Y) = 1( 或 者 p(X,Y) = 一 1， 
相应 地 ). 

(c) 如 果 p(X,Y) = 1( 或 者 p(X,Y) = 一 1), 那么 , Y 一 EIY] 概率 为 1 地 为 X 一 E[X] 
的 正 (或 者 相应 地 为 负 ) 倍数 . 

解 (a) 记 码 = 和 -BEIX] 以 及 了 =Y 一 EIY]. 用 施 瓦 效 不 等 式 , 得 到 


2 _(E[XY])? 
(p(X, Y)) 一 ElX2]E[Y3 < 1， 
所 以 有 |p(X,Y) < 1|. 
(b) 如 果 了 = a 六 ,那么 
pT)= Re 


Valz2lel(aR) lol 
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(c) 如 果 (p(X,Y))? = 1, 那么 由 题 20 可 得 


2 IX ,EIRY] jo, (ERY)? 
PI Ey B37] = [x ? E79 多 ye | 
_ gal _ 2BIX (EIXY))? 
-EXZ2] - a lx?) + Fey" 


=ELX2](1 — (p(X, Y))?) 
=0. 


因此 , 概率 为 1 地 , 随机 变量 


充 一 二 一 六 
E[Y?] 
等 于 0. 由 此 得 到 , 概率 为 1 地 ， 
-= EYy BEE xy 
E[Y?] E[Y?] 


即 , 久 和 立 的 倍数 关系 的 正 负 号 由 p(X,Y) 决定 . 


4.3 节 ”条 件 期 望 和 条 件 方 差 


22. 


23. 


24. 


设 一 个 赌 徒 每 次 赢 或 输 的 概率 分 别 为 p 和 1 一 yp, 而 且 每 次 输赢 与 以 前 独立 . 当 p > 1/2 

时 , 一 个 流行 的 赌博 方法 ( 称 为 Kelly 策略 ) 是 每 次 赌 上 当前 资产 的 2p 一 1 部 分 . 设 初 

始 资产 为 z 元 , 计算 经 过 n 次 赌博 之 后 , 运用 Kelly 赌博 策略 , 计算 其 资产 的 期 望 值 . 

潘 特 和 纳 特 在 约会 , 他 们 所 有 的 约会 都 在 晚上 9 点 以 后 . 纳 特 总 是 在 9 点 的 时 候 到 达 ， 

而 潘 特 比较 散漫 , 她 到 达 的 时 间 是 均匀 分 布 在 8 点 和 10 点 之 间 的 . 记 X 是 8 点 和 潘 特 

到 达 时 间 的 间隔 时 间 ， 如 果 潘 特 在 9 点 之 前 到 达 , 他 们 的 约会 将 持续 3 小 时 . 如 果 潘 特 

在 9 点 以 后 到 , 他 们 的 约会 持续 的 时 间 是 均匀 分 布 在 0 和 3-X 小 时 之 闻 的 , 他 们 的 约 

会 在 他 们 见面 后 开始 . 当 潘 特 迟 到 的 时 候 , 纳 特 会 很 生气 , 并 且 会 在 他 们 的 第 二 次 约会 潘 

特 迟 到 多 于 45 分 钟 的 时 候 结束 他 们 的 关系 . 所 有 的 约会 都 是 相互 独立 的 . 

(a) 纳 特等 待 潘 特 的 小 时 数 的 期 望 是 多 少 ? 

(b) 一 般 约会 持续 时 间 的 期 望 是 多 少 ? 

(c) 在 他 们 分 手 之 前 他 们 约会 次 数 的 期 望 是 多 少 ? 

一 位 退休 教授 到 办 公 室 的 时 间 服 从 早上 9 点 到 下 午 1 点 的 均匀 分 布 , 然后 他 做 一 件 工作 ， 

完成 这 个 任务 后 就 离开 办 公 室 . 这 项 任务 完成 的 时 间 服 从 参数 为 (y) = 1/(5 一 y) 的 指 

数 分 布 , 这 里 y 是 9 点 和 教授 到 达 时 刻 的 时 间 段 长 度 . 

(a) 教授 完成 任务 需要 时 间 的 期 望 是 多 少 ? 

(b) 任务 完成 时 刻 的 期 望 是 多 少 ? 

(c) 现在 , 换 一 种 情况 . 这 位 教授 除了 完成 他 本 人 的 任务 外 , 他 还 有 一 个 博士 生 , 这 个 学 
生 会 在 指定 的 一 天 去 找 教授 , 学 生 去 找 他 的 时 刻 服 从 从 早上 9 点 到 下 午 5 点 的 均匀 
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分 布 . 如 果 这 个 学 生 没有 找到 教授 , 就 离开 并 且 不 回来 了 . 如 果 找 到 了 教授 , 他 将 会 
和 教授 一 起 待 一 定 的 时 间 , 这 段 时 间 服 从 0 到 1 小 时 的 均匀 分 布 . 教授 总 在 他 自身 
的 任务 上 花 同样 的 时 间 , 不 管 他 是 否 被 这 个 学 生 打扰 . 这 一 天 , 教授 和 学 生 在 一 起 的 
时 间 的 期 望 是 多 少 ? 教授 离开 办 公 室 的 时 间 的 期 望 是 多 少 ? 
25.” 证 明 : 对 任意 的 离散 型 或 者 连续 型 随机 变量 XX, 以 及 另 一 个 随机 变量 Y 的 任意 函数 90Y), 
都 有 E[Xg(Y)|Y] = g(Y)ELXIY]. 
解 ” 假 设 X 是 连续 的 . 由 第 3 章 的 条 件 期 望 公式 可 得 


ELXg(Y)|Y = = 人 ™ zg(y)fxiy (cly)dz 
-sg /sfx al)as 
= gy)E[XIY = 外. 


这 就 证 明了 随机 变量 E[Xg(Y)|Y] 的 每 一 个 实现 值 BE[Xg(Y)|Y = yj 与 随机 变量 g(Y)E[X|Y 
的 每 一 个 实现 值 g(y)E[XIY = 总 是 相等 的 , 所 以 这 两 个 随机 变量 也 总 是 相等 的 . 当 

X 是 离散 的 时 , 证 明 类 似 . 

和 YY 是 独立 的 随机 变量 . 用 全 方差 法 则 证 明 


¥ 


26. 
var(XY) = (E[X]) var(Y) + (E[Y])?var(X) + var(X)var(Y). 
解 ” 让 2Z = XY. 全 方差 法 则 说 明 


var(2Z) = var(E[Z|X]) + E(var(Z|X)). 


我 们 有 
E[Z|X] = EL[XY|X] = XE[Y), 
所 以 
var(E[Z|X]) = var(XE[Y]) = (E[Y])?var(X). 
进一步 地 ， 
var(Z|X) = var(XY|X) = Xvar(Y|X) = X2var(Y)， 
所 以 


Elvar(Z|X)] = E[X?]var(Y) = (E[X])?var(Y) + var(X)var(Y). 
结合 前 面 的 关系 , 我 们 得 到 


var(XY) = (E[X])?var(Y) + (E[Y])?var(X) + var(X)var(Y). 


27.” 我 们 投 撕 ” 次 不 均匀 的 硬币 , 且 每 次 正面 朝 上 的 概率 为 g, 4 值 的 大 小 是 随机 变量 Q 可 
能 的 取 值 , @ 的 均值 是 j, 方差 oz? > 0. 设 Xi 为 第 i 次 投掷 结果 的 伯 努 利 随机 变量 ( 即 
第 ;次 投掷 硬币 正面 朝 上 ，X = 1, 否则 X; = 0). 假设 Xi1,… , Xn 在 给 定 Q = g 时， 
是 条 件 独立 的 . 记 X 为 n 次 投掷 硬币 , 正面 朝 上 的 总 次 数 . 
(a) 运用 重 期 望 公式 , 计算 E[X;] 和 E[X]. 


(b) 计算 Cov( Xi， Xj;). Xl1, 5 ,Xn 独立 吗 ? 
(c) 运用 全 方差 公式 , 计算 var(X). 并 运用 (b) 中 的 结果 来 验证 . 
解 (a) 运用 重 期 望 公式 以 及 E[Xi|Q] = @， 
E[X;] = E[ELX:|Q]] = E[Q] = k. 
因为 X = Xi 十 … 十 Xn, 则 有 
E[X] = E[Xi] + + E[Xn,] = ny. 
(b) 当 给 j 使 用 条 件 独立 假设 可 得 
E[XiX;|Q] = E[Xi|QIELX;|Q] = 92， 
以 及 
EIX;X;] = E[E[X;X;|Q]] = EIQ), 
所 以 
cov(Xs, Xi) = EIXiX;] — ELXi]ELX;] =EIG — pr = 07. 
因为 cov(Xi, Xi;) > 0, 所 以 X1,:… ,XX 不 独立 . 
当 纪 = 7 时 , 因为 观测 值 X? = X;， 
var(Xi) = E[X?] — (ELXi])? 
= E[Xi] — (E[X:])” 
= hf. 


(c) 运用 全 方差 法 则 和 Xi,.… ,X 的 条 件 独 立 性 , 我 们 有 


— 


var(X) = Elvar(X|Q)] + var(E[X]|®) 
= Elvar(X1 十 … 十 Xnl@)] + var(E[X1 + .+ Xn|Q]) 
= EInQ(1 - @)] + var(n@) 
= nE[Q — Q°] + nvar(Q@) 
=n(p— po)+no 
= nk— pp) +nn— 1)o”. 
并 运用 (b) 中 的 结果 来 验证 上 式 , 我 们 可 得 


Var(X) = var(Xi + .++ Xn) 
= DvaXi)+ DY) cov(Xi,X,) 
i=1 {(637) ii} 
= nvar(X1) + n(n — 1)cov(X1, X2) 
=n(p— pp) +n(n 一 1)c2. 
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28.” 二 维 正 态 分 布 密度 函数 ，( 零 均值 ) 二 维 正 态 分 布 密度 函数 具有 如 下 形式 


jxr(zg) = ce ae 


其 中 指数 部 分 的 函数 g(z,y) 是 x 和 y 的 二 次 多 项 式 ， 


2 2 
玫 一 2p 吉 三 二 并 


ozoy 


gq(z,Y) = pp 


这 里 oo。 和 cy 是 正 实数 , p 是 常数 , 满足 -1 < p < 1 c 是 归 一 化 常数 . 

(a) 完成 平方 项 , 即 把 g(z,y) 写成 (az 一 By)? 二 YY, 其 中 a, 6,7 是 常数 . 

(b) 证 明 XX 和 YY 分 别 是 期 望 为 0, 方差 为 oz2 和 o2 的 正 态 分 布 . 

(c) 求 出 归 一 化 常数 c. 

(4) 证 明 在 给 定 Y = y 的 条 件 下 , X 的 条 件 密度 函数 是 正 态 的 , 并 求 其 期 望 和 方差 ， 

(e) 证 明 X 和 YY 的 相关 系数 是 p. 

(f) 证 明 X 和 YY 的 相互 独立 的 充 要 条 件 是 它们 不 相关 . 

(g) 证 明 估计 误差 E[X|Y] 一 六 是 正 态 的 , 均值 为 0, 方差 为 (1 - p?)c2, 而 且 与 Y 是 独 
立 的 . 

解 (a) 可 将 g(z,y) 写成 下 面 的 形式 


q(x,y) = q(x,y) + q2(Y), 
其 中 


(b) 由 (a) 可 得 


fy(y) = < e-el(zy)e-92(y)dz — ce 2 广 e179) dz. 
一 De oo 
运用 变量 替换 
-or 
Or po, 


» 


工 一 02 
可 得 
广 eu Ndqr = ozVIT 一 02 广 e—* /2du = oz V1 — p2V2r. 
所 以 
fy(y)=cos Vl—p? Dne—Y /20%. 
这 就 是 均值 为 0, 方差 为 cz 的 正 态 分 布 密度 函数 ,由 对 称 性 , 也 可 证 得 X 也 是 正 


态 的 . 
(c) 了 的 密度 函数 的 归 一 化 系数 一 定 为 1/(V2rcy). 所 以 


cos V1 — p2V3r = 1/(V2noy), 


习 题 223 


从 而 | 
c= 一 一 一. 
2rmozcyV1IT 一 p2 
(d) 因为 
frr) = ey) 
: ’ 2nozoy V1l—p? 
1 
= — ee 2%) 
fy (y) ZV 
所 以 


_ jxrca 1 _ (~— pory/oy) 
Jr) 一 py) - yao i ep{ 302(1 — p72) } 
对 任意 给 定 的 y, 这 是 均值 为 pgsy/oy, 方差 为 o2(1 - p?) 的 正 态 分 布 密度 . 特别 
地 , 我 们 有 E[X|Y = y= (poz/oy)y 和 了 XIY] = (pos /oy)Y. 
(e) 运用 期 望 公式 和 重 期 望 法 则 , 可 得 


E[XY] = E[E[XY |Y]] 


= E[YELXIY) 
= ElY (pos/ov)Y] 
= poz/oyE[Y’] 
、 = pazay， 
所 以 相关 系数 p(X,Y) 等 于 
p(X,Y) = cov(X,Y) _ EIXY] _ p. 


OrOy OzOy 


(f) 如 果 X 和 了 不 相关 , 则 p = 0, 而 且 联 合 分 布 密度 满足 fx,y (zy) = fx (z)fy(y)， 
所 以 X 和 Y 独立 . 反之 , 若 X 和 了 独立 , 则 它们 自动 不 相关 

(g) 从 结论 (d) 可 知 , 给 定 Y = y 的 条 件 下 , X 是 正 态 的 , 均值 为 E[X|Y = 攻 , 方差 为 
(1 一 让)oz. 所 以 , 给 定 Y = y 的 条 件 下 , 估计 误差 防 = EIX|Y = Wj 一 义 是 正 态 
的 , 均值 为 0, 方差 为 (1 - po?)c2, 即 


_ 1 £2 
fry (ey) = -RE op| -Ss } 
既然 这 的 密度 不 依赖 于 的 值 y, 所 以 让 与 了 独立 , 而 且 上 式 条 件 密度 也 是 莹 


的 无 条 件 密度 . 
4.4 节 和 矩 母 函 数 
29.。 设 XX 为 取 值 1,2, 3 的 随机 变量 , 分 布 列 如 下 : 
P(X =D) = P(X =2) =7, P(X = 3) = 工 


求 X 的 矩 母 函数 并 且 用 它 得 到 前 三 个 矩 , E[X], E[X?], E[X3]. 
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30. 
31. 
32, 


33. 


34. 


35. 


36. 


37. 


38. 


关 
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计算 标准 正 态 随机 变量 X 的 E[X3] 和 E[X?] 
计算 参数 为 和 的 指数 分 布 的 三 阶 , 四 阶 , 五 阶 甜 . 
一 个 非 负 的 整数 随机 变量 X 有 以 下 两 个 表达 之 一 作为 它 的 抢 母 函数 : 
(D M(s) = ez 一 
(2) M(s) = ee -0 
(a) 解释 为 什么 这 两 者 中 的 有 一 个 表达 式 不 是 矩 母 函 数 . 
(b) 用 真 矩 母 函数 计算 P(X = 0). 
计算 具有 下 列 矩 母 函 数 的 连续 随机 变量 X 的 概率 密度 函数 
M(s) =1. 22. 3 
3 2-s5 3 3—s 
设 一 个 足球 队 有 3 名 球员 , 轮流 罚 点 球 ， 第 i 个 球员 踢 中 点 球 的 概率 为 p;, 而 且 与 其 他 
球员 是 相互 独立 的 . 设 每 个 球员 有 一 次 罚 点 球 机 会 , 记 X 为 三 名 球员 踢 球 完 后 跑 中 的 总 
次 数 . 运用 卷 积 公式 计算 X 的 分 布 列 . 计算 XX 的 矩 母 函数 , 然后 再 计算 X 的 分 布 列 . 
看 看 这 两 个 结论 是 否 一 致 . 
X 为 取 值 非 负 整数 的 随机 变量 , 并 且 具 有 以 下 矩 母 函 数 
3 十 4e2s 十 2e3 
3 一 es 


这 里 c 是 一 个 常数 . 计算 BIX], px(1) 以 及 E[X|X 关 0]. 


Mx(s) = ce-: 


X,Y 2Z 是 独立 的 随机 变量 , X 为 参数 为 1/3 的 伯 努 利 分 布 , Y 为 参数 为 2 的 指数 分 布 ， 
2 为 参数 为 3 的 泊 松 分 布 . 
(a) 考虑 新 的 随机 变量 UV = XY + (1--X)2. 计算 U 的 矩 母 函 数 . 
(b) 计算 22 + 3 的 矩 母 函数 . 
(c) 计算 + 2 的 矩 母 函数 . 
一 个 比萨 店 提供 n 种 不 同 的 比萨 饼 , 在 一 段 时 间 内 , 有 K 个 顾客 来 消费 , 其 中 K 是 取 
非 负 整数 的 随机 变量 , 且 已 知 其 矩 母 函数 是 Mk(s) = Ele**]. 每 个 顾客 订 一 种 比萨 饼 ， 
而 且 订 哪 种 的 概率 都 是 相同 的 , 与 其 他 顾客 是 独立 的 . 请 以 Mk(s) 来 表述 预定 的 比萨 饼 
的 种 类 数 的 期 望 . 
久 是 取 值 为 非 负 整数 的 离散 随机 变量 . M(s) 是 X 的 矩 母 函数 . 
(a) 证 明 

P(X=0)= im M(s). 


(b) 用 (a) 证 明 下 列 结果 : 如 果 X 是 服从 参数 为 n 和 p 的 二 项 分 布 的 随机 变量 , 我 们 
可 以 得 到 P(X = 0) = (1 一 p)”. 进一步 , 如 果 X 是 服从 参数 为 和 的 泊 松 分 布 的 随 
机 向 量 , 我 们 可 以 得 到 P(X = 0) = e-“. 

(c) 假设 XX 已 知 为 只 取 大 于 或 者 等 于 已 知 整 数 尺 的 整数 . 运用 XX 的 矩 母 函 数 我 们 怎 
么 计算 P(X = 到? 

解 (a) 我 们 有 


M(s) = > P(X = k)e*. 
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当 s 一 -ce 时 , 所 有 e*s,k > 0 趋向 于 0, 所 以 我 们 得 到 ,lim M(s) =P(X =0). 

(b) 在 二 项 分 布 的 条 件 下 , 我 们 可 以 得 到 矩 母 函数 
M(s) = (1 一 p 十 pe ) 
所 以 _lim _M(s) = (1 一 可 ". 在 泊 松 分 布 的 条 件 下 , 我 们 有 
M(s) = ex 一 D， 

所 以 lim M(s) 一 e 
(e) 随机 变量 Y 一 XX - 大 只 取 非 负 台 数值 , 相应 的 矩 母 数 是 My(s) 二 。- 忆 M(s)( 参 

考 例 4.25). 因为 P(Y = 0) = P(X = 及 ,我 们 从 (a) 得 到 ， 

P(X = = lim_ e—EM(s). 
39. 均匀 随机 变量 的 矩 母 函 才 

(a) 计算 在 {a,a 十 1,… ,b} 上 的 整数 均匀 分 布 随机 变量 X 的 矩 母 函 数 . 


(b) 计算 在 区 间 [, 引 上 均匀 分 布 的 连续 随机 变量 X 的 扎 母 函数 ， 
解 (a) X 的 概率 密度 函数 是 


1 
一 一 一 ， 车 k= 二 a,a 十 1,.…,b，, 
px (k) = b—a+l 
0， 其 他 . 


甜 母 函数 为 


oo 


M(s)= > e*P(X =&) 


k=—o0 
b 
-Di 
pr b—a+l 
b—a 
eo sk 
~ b—-at+l 2。 


加 es 1 一 es(p 一 a 十 1) 


”Da+Ti… 1 一 es 
(b) 我 们 有 


esb 一 es 
YI = em 人 于 au 全 
40.” 假设 离散 随机 变量 X 的 矩 母 函数 有 下 列 形式 
M(s) = A(e’) 

Bl(es)’ 
这 里 A(t) 和 B(t) 都 是 t 的 多 项 式 . 假设 4(t) 和 B(t) 没有 共同 根 , 而 且 A(t) 的 次 数 比 
B(t) 的 小 . 假定 B(t) 的 所 有 根 是 绝对 值 大 于 1 的 互 异 非 零 实 根 . 那么 可 以 看 出 M(s) 
可 以 写成 下 面 形 式 


M(s)=— e+. 


1—ries 1 — rmes’ 


这 里 1/ri,… ,1/rm 是 B(t) 的 根 , 而 且 ai; 是 等 于 lim (1 一 ”ie )M(s)， 1 一 17 


的 常数 . 
(a) 证 明 XX 的 分 布 列 为 


irt， 车 = 0,1,: 
P(X = 有 二 Dor 
0, 其 他 . 


注意 ; 对 于 大 的 k, X 的 概率 密度 函数 可 以 通过 azr? 来 逼近 , 这 里 ;是 最 大 的 
|ri|( 假 定 i 是 唯一 的 ) 的 相应 的 指标 . 
(b) 把 (a) 的 结果 推广 到 M(s) = es** 4(es)/B(es) 的 情况 , 5 为 整数 . 
解 (a) 对 于 所 有 的 满足 条 件 |rile? < 1 的 s, 我 们 有 


一 工 十 mries 十 72e2 十 .， 
1 —ries 


因此 ， 
= > ai 十 (So") es 十 (So) ez 二...， 
i 二 1 i 二 1 i=1 


根据 矩 母 函数 的 定义 , 我 们 得 到 


P(X=k)= Dot 


对 于 所 有 的 > 0 成 立 , 并 且 对 于 k < 0, P(X = k) = 0. 注意 如 果 系 数 a; 为 非 负 
实数 的 话 , 这 个 分 布 列 为 几何 分 布 列 的 混合 . 

(b) 在 这 种 情况 下 ，M(s) 相当 于 矩 母 函数 为 A(t)/B(t) 的 随机 变量 通过 平移 b 以 后 所 
得 到 的 矩 母 函 数 (参考 例 4.25), 所 以 我 们 有 


Dor 引 车 k=b,b+1,. 
P(X = 月 = 


一 1 


0， 其 他 . 


4.5 节 随机 数 个 相互 独立 的 随机 变量 之 和 


41.。 在 某 一 确定 时 间 , 进入 电梯 的 人 数 服从 参数 为 和 的 泊 松 分 布 . 每 个 人 的 体重 都 是 相互 独 
立 的 , 并 且 服 从 100 磅 到 200 磅 之 间 的 均匀 分 布 . X; 是 第 i 个 人 超出 100 磅 部 分 与 100 
的 比值 , 例如 , 如 果 第 7 个 人 重 175 磅 , 那么 Xz = 0.75. Y 是 诸 X 的 和 . 
(a) 求 Y 的 相关 和 拢 母 函数 . 
(b) 用 和 矩 母 函 数 计 算 Y 的 期 望 值 . 
(c) 用 重 期 望 法 则 证 明 (b) 的 答案 . 

42. 构造 一 个 个 数 为 随机 的 独立 正 态 随 机 变量 之 和 的 非 正 态 的 例子 (即使 固定 数目 的 独立 正 
态 随机 变量 的 和 是 正 态 随 机 变量 ). 


43， 


44. 


45.* 
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一 个 摩托 车 手 过 4 个 红绿灯 , 过 每 个 灯 的 时 候 红 灯 的 概率 都 是 1/2. 在 每 个 灯 等 待 的 时 

间 由 模型 假设 为 均值 为 1 分 钟 , 标准 差 为 1/2 分 钟 的 正 态 分 布 . X 是 在 红 灯 前 等 待 的 总 

时 间 . 

(a) 用 全 概率 定理 计算 X 的 概率 分 布 函数 和 相应 矩 母 函 数 , 并 计算 X 超过 四 分 钟 的 概 
率 . X 是 正 态 的 吗 ? 

(b) 把 XX 看 作 个 数 为 随机 的 各 随机 变量 之 和 , 计算 XX 的 相应 矩 母 函数 . 

计算 下 列 随机 变量 和 的 期 望 和 方差 ， 


Y =X1+...+ Xn, 
其 中 N 自身 也 是 整数 随机 变量 的 和 , 即 
N= Ki+..:+ Km. 


这 里 N, M, Ki, K2,… ,X1, X2,… 都 是 独立 的 随机 变量 ，N, M, Ki Kz,... 是 取 整 数 

值 的 , 且 非 负 的 随机 变量 ,，K1, K2,… 分 布 相同 , 具有 相同 的 均值 E[K] 和 方差 var(K). 

X1,X2,… 也 具有 相同 的 均值 E[X] 和 方差 var(X). 

(a) 用 EILM], var(2M),E[K],var(K) 来 推导 ELV] 和 var(N). 

(b) 用 EL[M], var(M), E[K], var(K),E[X], var(X) 来 推导 E[Y] 和 var(Y). 

(c) 一 个 板 条 箱 里 有 M 个 纸 盒 , M 服从 参数 为 p 的 几何 分 布 . 第 i 个 纸 盒 含 有 Ki 个 
小 零件 ，Ki 服从 参数 为 j 的 泊 松 分 布 , 每 个 小 零件 的 重量 服从 参数 为 和 的 指数 分 
布 . 假定 所 涉及 的 随机 变量 都 是 独立 的 . 求 整个 箱子 的 总 重量 的 期 望 和 方差. 

用 和 拢 母 函 数 方法 证 明 个 数 服从 泊 松 分 布 的 诸 独立 同 分 布 的 伯 努 利 随机 变量 之 和 服从 泊 松 

分 布 . 

解 ” 记 是 服从 参数 为 和 的 泊 松 分 布 的 随机 变量 ，Xi,i = 1,.… , N 是 独立 的 成 功 概 

率 为 p 的 伯 努 利 随机 变量 . 令 


L=X1+.…+ XN 
是 相应 的 和 . 的 矩 母 函 数 通过 N 的 矩 母 函数 得 到 ，N 的 矩 母 函 数 为 
My(s) = ), 


X; 的 矩 母 函数 为 
MX(s) 三 1 一 D 十 pe . 
通过 X; 的 矩 母 函 数 代替 es, 我 们 得 到 


Mi(s) = ex0-z+pe 0 一 ep， 


这 就 是 参数 为 Xp 的 泊 松 分 布 的 矩 母 函 数 . 
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在 本 章 里 , 我 们 讨论 随机 变量 序列 的 渐 近 性 质 . 设 Xi,… , Xn, 为 一 个 独立 同 
分 布 的 随机 变量 序列 , 其 公共 分 布 的 均值 为 凡 方差 为 o2. 定义 
Sn = Xl 十 … 十 Xn 


为 这 个 随机 变量 序列 的 前 n 项 之 和 . 本 章 的 极限 理论 研究 9。 以 及 与 5 相关 的 变 
量 在 n 一 co 时 的 极限 性 质 . 
由 随机 变量 序列 的 各 项 之 闻 的 相互 独立 性 可 知 


var(Sn) = var(X1) + ++ var(Xn) = no?. 


所 以 , 当 n 一 oo 时 , Sn 是 发 散 的 , 不 可 能 有 极限 . 但 是 样本 均值 


Xit+tXn _ Sn 
也 加 nN 


M, = 
却 不 同 . 经 过 简单 计算 就 可 以 得 到 
og2 

EM = 4, var(Mn) = 序 : 


所 以 当 n 一 oo 时 , Mn 的 方差 趋 于 0. 也 就 是 说 , Mi 的 分 布 大 部 分 就 必然 与 均值 
4 特别 接近 . 这 种 现象 就 是 大 数 定律 的 内 容 , 即 随机 变量 序列 Mn, 从 大 样本 意义 上 
看 , 收敛 于 Xi; 的 均值 y. 按 通 常 的 解释 , 当 样 本 量 很 大 的 时 候 , 从 X 抽取 的 样本 平 
均值 就 是 EB[X], 大 数 定律 就 为 此 提供 了 一 个 数学 理论 基础 . 

下 面 考虑 另 一 个 随机 变量 序列 . 用 S" 减 去 np, 可 以 得 到 零 均 值 随机 变量 序列 
Sn 一 np, 然后 再 除 以 aVn, 就 得 到 随机 变量 序列 


Sn — ng 


Zn = . 
ovVn 


易 证 明 E[2Z,] = 0， var(2n) = 1. 

因为 2 的 均值 和 方差 不 依赖 于 样本 容量 n, 所 以 它 的 分 布 既 不 发 散 , 也 不 收 
敛 于 一 点 . 中 心 极 限定 理 就 研究 2,, 的 分 布 的 渐 近 性 质 , 并 且 得 出 结论 : 当 ” 充分 
大 的 时 候 , 2 的 分 布 就 接近 标准 正 态 分 布 . 

极限 理论 的 用 处 很 多 . 
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(a) 从 理论 上 看 , 极限 理论 将 期 望 (或 概率 ) 和 独立 同 分 布 试验 序列 之 间 的 联系 
提供 了 合理 的 解释 . 

(b) 极限 理论 提供 了 Sn 等 随机 变量 序列 当 样 本 量 n 充分 大 时 的 近似 性 质 . 与 
精确 方法 比较 , 为 了 了 解 Sn 的 性 质 , 精确 方法 需要 计算 5,, 的 分 布 函数 或 概率 密 
度 函数 , 但 是 在 n 充分 大 的 时 候 , 这 些 计 算是 非常 复杂 而 且 不 得 要 领 . 

(c) 在 使 用 大 量 观 测 数据 集 时 , 极限 理论 在 统计 推断 中 发 挥 主要 的 作用 . 


5.1 “马尔 可 夫 和 切 比 雪 夫 不 等 式 


本 节 介 绍 一 些 重要 的 不 等 式 ， 这 些 不 等 式 使 用 随机 变量 的 均值 和 方差 去 分 析 
事件 的 概率 . 在 随机 变量 X 的 均值 和 方差 易于 计算 , 但 分 布 不 知道 或 不 易 计 算 时 ， 
这 些 不 等 式 就 非常 有 用 . 

首先 介绍 马尔 可 夫 不 等 式 . 粗略 地 讲 , 该 不 等 式 是 指 , 一 个 非 负 随机 变量 如 果 
均值 很 小 时 , 则 该 随机 变量 取 大 值 的 概率 也 非常 小 . 


马尔 可 夫 不 等 式 
设 随机 变量 X 只 取 非 负 值 , 则 对 任意 a > 0， 


P(X >a)< = 


现在 来 证 明 马 尔 可 夫 不 等 式 . 固定 正 数 w, 定义 随机 变量 到， 


y - 由 车 和 < oa， 

a， 车 了 Xa. 
易 知 

YasX 
总 成 立 , 从 而 

E[Y,] < E[X]. 
另 一 方面 
BE[2] = aP (Ys = a) = aP(X > oh， 

所 以 


aP(X > a) < EIX] 
( 见 图 5.1 给 出 马尔 可 夫 不 等 式 的 推导 过 程 示 意图 ). 
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图 5.1 马尔 可 夫 不 等 式 推导 过 程 示 意图 . 图 (a) 是 非 负 随机 变量 X 的 概率 密度 函数 . 图 (b) 
是 与 X 相关 的 随机 变量 到 的 分 布 列 . 分 布 列 的 构造 如 下 : 把 X 位 于 0 和 a 之 间 的 
所 有 质量 都 赋值 于 点 0, 大 于 等 于 a 的 质量 都 赋值 于 点 a. 因为 所 有 的 质量 向 左 转移 ， 
所 以 期 望 必然 减少 , 因此 


E[X] > E[Ys] = aP(Ys = a) = aP(X > a) 


例 5.1 设 X 服 从 Cl0,4 的 均匀 分 布 . 易 知 BEIX] = 2. 由 马尔 可 夫 不 等 式 可 得 


2 


PCC>2<2=-1 PKX>3a<3 2 


3=067, P(X24)<7=0.5. 


与 真实 概率 进行 比较 
P(X>2)=0.5, P(X>3)=0.25, P(X>4)=0. 


可 以 看 出 由 马尔 可 夫 不 等 式 给 出 的 上 界 与 真实 概率 相差 非常 远 . 口 

下 面 介 绍 切 比 雪夫 不 等 式 . 粗略 地 讲 , 切 比 雪夫 不 等 式 是 指 如 果 一 个 随机 变量 
的 方差 非常 小 的 话 , 那么 该 随机 变量 取 远离 均值 A 的 概率 也 非常 小 . 注意 的 是 : 切 
比 雪夫 不 等 式 并 不 要 求 所 涉及 的 随机 变量 非 负 . 


切 比 雪 夫 不 等 式 
设 随机 变量 X 的 均值 为 jv, 方差 为 …, 则 对 任意 c > 0， 


2 
oo 
P(X -HH>29 < 所 . 


下 面 来 证 明 切 比 雪夫 不 等 式 . 考虑 非 负 随机 变量 (X - j)?. 令 a = c2, 使 用 马 
尔 可 夫 不 等 式 , 可 得 
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P(X -p20) < RSH. 
注意 , 事件 |XX - ul? > c2 等 价 于 事件 | 基 一 | 之 c, 所 以 

o2 

P(X—pHl>0)=P(X- ph 2 0)< 记 . 


在 证 明 切 比 雪 夫 不 等 式 的 时 候 也 可 以 不 使 用 马尔 可 夫 不 等 式 , 其 推理 如 下 . 不 
妨 设 X 是 连续 型 随机 变量 , 定义 函数 


四 = 0， 车 |z 一 pj| <c 时 ， 
9 2， 著 Iz 一 川 >c 时 . 


注意 , 对 任意 的 zx, (z 一 1)? > g(z), 所 以 
2=/ empxlodaz> {gtofx(odr = P(e nl 20) 


这 就 是 切 比 雪夫 不 等 式 . 

令 c= ko, 其 中 大 是 正 数 . 切 比 雪夫 不 等 式 的 另 一 个 版 本 是 : 

o2 
P(IX— pH|> ko) < B02 = 喜 : 

所 以 一 个 随机 变量 的 取 值 偏离 其 均值 倍 标准 差 的 概率 最 多 1/k2. 

切 比 雪夫 不 等 式 比 马尔 可 夫 不 等 式 更 准确 , 即 由 切 比 雪夫 不 等 式 提供 的 概率 的 
上 界 离 概率 的 真 值 更 近 . 这 是 因为 它 利用 了 X 的 方差 的 信息 . 当然 一 个 随机 变量 
的 均值 和 方差 也 仅仅 是 粗略 地 描述 了 随机 变量 的 性 质 , 所 以 由 切 比 雪夫 不 等 式 提供 
的 上 界 与 精确 概率 也 可 能 不 是 非常 接近 . 
例 5.2 ( 续 例 5.1) ” 设 碟 服从 TI0,d] 的 沟 多 分 布 现在 使 用 切 比 雪夫 不 等 式 来 给 


出 事件 |X -2| > 1 的 概率 上 界 . 显然 o? 1 = 2, 则 
o2 4 
P(X -2>D)<T = 
由 于 概率 的 值 永远 不 超过 1, 所 以 这 个 不 等 式 并 不 带 来 任何 信息 . 口 


现在 看 另 一 例子 , 设 X 服从 参数 和 = 1 的 指数 分 布 , 则 E[X] = var(X) = 1. 对 
任意 的 c > 1, 使 用 切 比 雪夫 不 等 式 可 得 


1 
(c— D> 


而 真实 概率 是 P(X > c) = e-“. 可 以 看 出 由 切 比 雪夫 不 等 式 给 出 的 上 界 比较 保守 . 


P(X20)=P(X-12c-1)<P(|IX-1>c- 1)< 
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例 5.3 ( 切 比 雪夫 不 等 式 的 上 界 ) ” 设 随 机 变量 X 取 值 空间 是 [a, 忠 , 现在 我 们 证 明 
02 & (5 一 a)?/4. 因此 , 如 果 c2 未 知 , 我 们 就 可 以 用 上 界 (b - a)?/4 来 代替 切 比 雪 
夫 不 等 式 中 的 o2, 即 


P(Is 一 川 之 < 2， 对 任意 的 。> 0 
为 证 明 o2? < (5 一 a)?/4. 对 任意 的 常数 7, 我 们 有 
EI(X —)"] = BEX3] 一 2B[X]y + 
而 且 该 二 次 多 项 式 在 + = ELX] 处 达到 极 小 . 因此 对 任意 的 常数 7, 我 们 有 
02 = EI(X ~ EIX])’ < EI(X 一 人 中 
令 Y= (a 十 b)/2, 可 得 


(2 | -BICX -aC -可 + 全 < (50—a)? 


o2 <E 


2 4 


其 中 等 式 可 以 通过 直接 计算 来 验证 , 最 后 一 个 不 等 式 成 立 的 原因 是 : 当 z € [a, 引 时 
(zt—a)(z—0b)<0. 


上 界 o2? < (5 一 a)?/4 可 能 会 非常 保守 , 但 是 在 X 的 信息 缺乏 更 深 的 认识 的 
情况 下 ,这 个 上 界 很 难 更 加 精确 ， 当 XX 各 以 1/2 的 概率 只 取 极 端 值 c 和 5 时 ， 
02 = (b — a)2/4. 口 


5.2 “” 弱 大 数 定律 


弱 大 数 定律 是 指 独立 同 分 布 的 随机 变量 序列 的 样本 均值 , 在 大 样本 的 情况 下 ， 
以 很 大 的 概率 与 随机 变量 的 均值 非常 接近 . 

下 面 考虑 独立 同 分 布 随机 变量 序列 Xi,X2,.…, 公共 分 布 的 均值 为 j, 方差 为 
o?. 定义 样本 均值 


则 
EIM,] = E[X1] 十 + EXn] _ 2 
再 运用 独立 性 可 得 


Var(Xi 二 … 十 Xn) var( Xi) 十 … 十 var(Xn) no? 2 
vrM)= 7 


一 Fk. 
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利用 切 比 雪夫 不 等 式 可 得 
P([Mn — J|> © < .5， 对 任意 的 e > 0 成 立 . 


注意 , 对 任意 固定 的 > 0, 上 面 不 等 式 的 右边 在 ”一 co 时 , 趋 于 0, 于 是 就 得 到 如 
下 的 弱 大 数 定律 . 这 里 要 提 到 的 是 : 当 X; 的 方差 无 界 时 , 大 数 定律 仍然 成 立 , 但 是 
需要 更 严格 而 精巧 的 证 明 , 在 此 省 略 . 因此 , 在 下 面 陈述 的 大 数 定律 中 , 只 需要 一 个 
假设 , 即 ELX] 是 有 限 的 . 


弱 大 数 定律 
当 n 一 00 时 ， 


Xi 十 … 十 Xn 


jl>eA= 
P(|M, 4| 之 e) P ( nn 


- 川 >ej -0 


弱 大 数 定律 是 指 对 于 充分 大 的 n, Mi 的 分 布 的 大 部 分 都 集中 在 /附近 . 设 包 
含 刀 的 一 个 区 间 为 [wu -ez 十 中 则 MX 位 于 该 区 间 的 概率 非常 大 . 当 mn -oo 时 ， 
该 概率 趋 于 1 当然 当 < 非常 小 时 , 则 需要 更 大 的 w, 使 得 M。。 以 很 大 的 概率 落 在 
该 区 间 内 . 
例 5.4 (概率 与 频率 ) 。 在 某 个 试验 中 , 考虑 一 个 随机 事件 4. 记 p = P(A4) 为 事件 
4 发 生 的 概率 . 现在 假定 在 n 次 独立 重复 的 试验 中 , 记 Mu 为 n 次 独立 重复 试验 中 
事件 4 发 生 的 次 数 占 总 试验 次 数 ”的 比例 , MX。 通常 称 为 事件 4 的 频率 . 注意 到 

Mt 
nN 

其 中 X; = 1 表示 事件 4 发 生 , 否则 Xi = 0. 特别 地 有 E[Xi] = p. 运用 弱 大 数 定律 
可 以 证 明 : 当 n 充分 大 时 , 频率 以 很 大 的 概率 落 在 p 的 。 邻 域 里 . 也 就 是 说 频率 是 
p 的 一 个 很 好 的 估计 . 换 句 话说 , 可 以 将 事件 4 发 生 的 频率 解释 为 概率 p。 。 口 
例 5.5 (选举 问题 ) ” 设 p 为 选民 支持 某 候选 人 的 比例 . 现在 “随机 ”地 对 ”个 选 
民 进行 调查 , 然后 计算 这 n 个 选民 对 该 候选 人 的 支持 率 M。 我 们 将 MX。 视 为 了 的 
估计 , 并 研究 它 的 性 质 

“随机 ”的 含义 是 指 这 n 个 选民 是 所 有 选民 中 的 独立 同 分 布 样本 . 所 以 每 个 选 
民 的 回答 也 可 以 视 为 独立 的 伯 努 利 随机 变量 X;, X; = 1 表示 选民 支持 候选 人 , 或 
“试验 成 功 ”, 成 功 的 概率 为 p, Xs 的 方差 为 o2 = p(1 - 吕 , 利用 切 比 雪夫 不 等 式 可 
得 

Pd -p20 < HD. 
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当然 参数 p 的 真 值 是 未 知 的 . 另外 注意 到 p(1 一 p) < 4, 所 以 


P(|Mn, 一 中 | 之 6) < 


47262 


比如 , e = 0.1,n = 100 时 ， 


P(Aaioo — p| > 0.1) = 0.25. 


< Tx 100 x (0.1 
也 就 是 说 , 在 ”= 100 的 情况 下 , 估计 量 Mi 与 p 的 真 值 相差 大 于 0.1 的 概率 不 超 
过 0.25. 
现在 考虑 男 一 个 问题 , 假设 我 们 希望 估计 量 与 真 值 p 相差 不 到 0.01 的 概率 至 
少 超过 95%, 那么 至 少 需要 调查 多 少 人 ? 现在 我 们 唯一 可 以 使 用 的 就 是 不 等 式 
P(IM, —p| > 0.01) < oy 


为 满足 要 求 , 只 需求 充分 大 的 n, 使 得 


oT < 1— 0.95 = 0.05, 
由 上 式 可 得 ”> 50 000. 取 这 样 的 n, 就 能 满足 我 们 的 要 求 , 但 是 基于 切 比 雪夫 不 
等 式 得 到 的 结论 仍然 很 保守 . 更 好 的 结论 将 在 5.4 节 中 讨论 . 口 
5.3 ” 依 概率 收敛 


弱 大 数 定律 可 以 表述 为 “Mn 收敛 于 jp”. 但 是 , 既然 Mi, M2,… 是 随机 变量 
序列 , 而 不 是 数列 , 所 以 这 里 的 “收敛 ”的 含义 不 同 于 数列 的 收敛 , 应 该 给 予 更 明确 
的 含义 . 下 面 先 给 出 数列 的 收敛 的 定义 , 以 便于 进行 比较 . 


数列 的 收敛 


设 ol;aa,…' 是 一 实数 数列 , a 为 一 实数 ,如 果 对 任意 的 e > 0, 存在 正 整数 
no, 使 得 对 所 有 的 n 之 no, 都 有 


lan —al < 6， 


则 称 数列 on 收敛 于 a, 记 为 ,lim an = a. 


所 以 , 如 果 im on =, 则 对 任意 给 定 的 e > 0, 当 n 充分 大 时 ,an 必须 在 a 
的 e 邻 域内 . 
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依 概率 收敛 
设 厂 , 屯 ，… 是 随机 变量 序列 (不必 相互 独立 ),，a 为 一 实数 , 如 果 对 任意 的 
e > 0, 都 有 


lim P(|Yh,— al 2 = 0, 


则 称 六 依 概率 收敛 于 a. 


根据 这 个 定义 , 弱 大 数 定律 就 是 说 样本 均值 依 概率 收敛 于 均值 上， 更 一 般 地 ， 
利用 切 比 雪夫 不 等 式 可 以 证 明 ; 如 果 所 有 的 区 具有 相同 的 期 望 , 而 方差 var(Y%) 
趋 于 0, 则 Y 依 概 率 收 敛 于 j. 

如 果 随 机 变量 序列 六 ,Y,… 有 分 布 列 或 者 概率 密度 , 且 依 概率 收敛 于 a. 则 
根据 依 概率 收敛 的 定义 , 对 充分 大 的 n, 7 的 概率 密度 函数 或 分 布 列 的 大 部 分 “ 质 
量 ” 集 中 在 a 的 e 邻 域 [la -ea+gj 内 . 所 以 依 概 率 收敛 的 定义 也 可 以 这 样 描述 : 
对 任意 的 e> 0 和 5 > 0, 存在 no, 使 得 对 所 有 的 n > no, 都 有 


P(/Ys al > 6) <6. 
下 面 称 e 为 精度 , 6 为 置信 水 平 ， 依 概率 收敛 的 定义 有 如 下 的 形式 : 给 定 精 度 和 置 


信和 水平 下 , 在 ”充分 大 时 , Y, 等 于 a. 
例 5.6 设 Xi Xo…… 独立 同 分 布 , 服从 [0,1 上 的 均匀 分 布 , 定义 


Y, = min{X1,... ,Xn}. 
则 当 n 充分 大 时 , 丈 值 序列 非 增 , 所 以 丈 从 直觉 上 看 可 能 收敛 于 0. 实际 上 , 对 任 
意 的 e > 0, 利用 X 的 独立 性 , 可 以 得 到 
P( 丈 一 0 > 日 =PCX 26.…, Xn >) =PX 0)...P(Xn, 2 60)= (1-e)". 
于 是 ， 
im P( 丈 一 0| zz 6€) = ,lim (1 — "=0. 


上 式 对 任意 的 e > 0 都 是 成 立 的 , 所 以 Y, 依 概 率 收敛 于 0. 口 

例 5.7 设 随机 变量 Y 服从 参数 A = 1 的 指数 分 布 . 对 任意 的 正 整 数 mn， 定义 

Yn = Y/n. (注意 该 随机 变量 序列 不 是 独立 的 . ) 现在 研究 Y, 是 否 依 概率 收敛 于 0. 
实际 上 , 对 任意 的 e > 0, 可 以 得 到 


P(lYh —0|¥6)=P(Y, 6 =P(Y > me) = ee". 


于 是 ， 


lim P( 了 一 0 >e= lim e ”=0. 
他 一 DO 各 一 De 


上 式 对 任意 的 e > 0 都 是 成 立 的 , 所 以 7, 依 概率 收敛 于 0. 口 
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人 们 很 容易 认为 , 如 果 丈 依 概率 收敛 于 实数 a, 则 BEIY?] 也 应 该 收敛 于 a. 下 
面 的 例子 说 明 这 个 结论 是 不 对 的 , 从 而 说 明 依 概率 收敛 的 定义 有 局 限 性 . 
例 5.8 ”考虑 离散 随机 变量 序列 Y, 其 分 布 列 为 


1 一 工 若 y= 0， 1-1/m 
P(Y, = = i 车 y=n2 PMF of Y, 
0 其 他 . jn 
见 图 5.2. 则 对 任意 的 e > 0, 有 D 
Jlim P(|Ya| > ©) = lm = -0. 图 5.2 例 5.8 中 随机 变量 Y, 的 分 布 列 


所 以 Y 依 概率 收敛 于 0. 另 一 方面 , 当 n 一 ce 时 , E[Yh| = n?2/n = n 一 oo. 口 
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根据 弱 大 数 定律 , 样本 均值 Mn 的 分 布 随 着 n 的 增 大 , 越 来 越 集中 在 真 值 /的 
邻 域内 . 特别 地 , 在 我 们 的 论证 中 , 假定 X; 的 方差 为 有 限 的 时 候 , 可 以 证 明 My 的 
方差 趋 于 0. 另 一 方面 , 前 ”项 和 


Sn = Xl1+… + Xn = nM 


的 方差 趋 于 co, 所 以 _ 5% 的 分 布 不 可 能 收敛 . 换 一 个 角度 , 我 们 考虑 5,, 与 其 均值 
np 的 偏差 Sn 一 nn, 然后 乘 以 正比 于 1/ Vn 的 刻度 系数 . 乘 以 刻度 系数 的 目的 就 是 
使 新 的 随机 变量 具有 固定 的 方差 . 中 心 极 限定 理 指出 这 个 新 的 随机 变量 的 分 布 趋 
于 标准 正 态 分 布 . 

具体 地 说 , 设 X1,… , Xn 是 独立 同 分 布 的 随机 变量 序列 , 均值 为 1 方差 为 o2. 
时 _ Sn—-np 十 十 一 


n= i ho 


经 过 简单 计算 可 以 得 到 


Xi + Xn] 一 PH 


ElZn] = 到 Vio 0, 


var(X1 十:… 十 Xna) var(X1)++Vvar(Xn) no? 1 
no2 加 no2 no?2 


var(Zn) = 
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中 心 极 限定 理 

设 辣 ,X2… 是 独立 同 分 布 的 随机 变量 序列 , 序列 的 每 一 项 的 均值 为 J, 方 
差 为 o2. 记 
六 1 十.… 十 Xn np 


Zn = 7 


则 2o 的 分 布 函数 的 极限 分 布 为 标准 正 态 分 布 函数 


rr 
-2°/2d 
一 e Zi 
V2T /. 


对 任意 的 z 成 立 . 


中 心 极限 定理 是 一 个 非常 具有 一 般 性 的 定理 . 对 于 定理 的 条 件 , 除了 序列 为 独 
立 性 同 分 布 的 序列 之 外 , 还 假设 各 项 的 均值 和 方差 的 有 限 性 . 此 外 , 对 X; 的 分 布 
再 也 没有 其 他 的 要 求 . X; 的 分 布 可 以 是 离散 的 , 连续 的 , 或 是 混合 的 . 本 章 末 尾 的 
习题 对 此 定理 提供 了 证 明 概 要 . 

这 个 定理 不 仅 在 理论 上 , 而 且 在 实践 中 也 非常 重要 . 从 理论 上 看 , 该 定理 表明 
大 样本 的 独立 随机 变量 序列 和 大 致 是 正 态 的 ， 所 以 当 人 们 过 到 的 随机 量 是 由 许多 
影响 小 但 是 独立 的 随机 因素 的 总 和 的 情况 , 此 时 根据 中 心 极限 定理 就 可 以 判定 这 个 
随机 量 的 分 布 是 正 态 的 . 例如 在 许多 自然 或 工程 系统 中 的 白 噪 声 就 是 这 种 情况 . 

从 应 用 角度 看 , 中 心 极限 定理 可 以 不 必 考 虑 随机 变量 具体 服从 什么 分 布 , 避免 
了 分 布 列 和 概率 密度 函数 的 繁琐 计算 . 而 且 , 在 具体 计算 的 时 候 ,， 人 们 只 需 均 值 和 
方差 的 信息 以 及 简单 查阅 标准 正 态 分 布 表 即 可 . 


5.4.1 基于 中 心 极限 定理 的 近似 


中 心 极限 定理 允许 人 们 可 以 将 2 的 分 布 看 成 正 态 分 布 , 从 而 可 以 计算 与 2 
相关 的 随机 变量 的 概率 问题 . 因为 正 态 分 布 在 线性 变换 下 仍然 是 正 态 分 布 , 所 以 可 
以 将 Sn 视 为 均值 为 ny, 方差 为 no? 的 正 态 随机 变量 . 


基于 中 心 极限 定理 的 正 态 近 似 


的 随机 变量 序列 当 nn 充分 大 时 ， 概率 2 < o) 可 以 通过 将 Sn 生态 了 


变量 来 近似 计算 . 步骤 如 下 : 
(1) 计算 So 的 均值 nu 和 方差 na2i 
(2) 计算 归 一 化 后 的 值 z = (c 一 np)/(Vnio); 
(3) 计算 近似 值 
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P(S%, & c) ~ B(z), 
其 中 B(z) 可 从 标准 正 态 分 布 函数 表 查 得 . 


例 5.9 飞机 上 运载 100 件 包 训 , 每 件 包 襄 的 重量 是 独立 的 随机 变量 , 且 在 5 磅 到 
50 磅 之 间 的 均匀 分 布 . 那么 这 100 件 包 囊 的 总 重量 超过 3 000 磅 的 概率 是 多 少 ? 直 
接 计算 总 重量 的 分 布 , 从 而 计算 该 概率 是 非常 不 容易 的 ， 但 是 使 用 中 心 极限 定理 ， 
可 以 很 容易 计算 出 来 . 

现在 计算 P(Sioo > 3 000), 其 中 Sioo 是 这 100 件 包 豪 的 总 重量 . 每 件 包 带 的 
平均 重量 和 方差 是 


Ht 二 


然后 计算 标准 正 态 值 
3000 一 100x25.5 250 
”Vid0x168.75 129.9 


使 用 标准 正 态 近似 , 可 以 得 到 


5+50 2 (50—5)2 
7 =27.5, 0 = = 168.75. 


一 1.92. 


P(Sioo < 3 000) ~ ®(1.92) = 0.972 6. 


所 以 
P(Si00 > 3 000) =1— P(Si00 < 3 000) 2 1 — 0.972 6 = 0.027 4. 口 


例 5.10 ”机 器 对 零件 进行 加 工 , 每 次 加 工 一 个 零件 . 对 于 不 同 的 零件 , 其 加 工时 间 
是 相互 独立 并 具有 相同 分 布 的 随机 变量 , 其 公共 分 布 为 时 间 区 间 [1,5] 上 的 均匀 分 
布 . 设 在 320 个 单位 时 间 之 内 所 加 工 的 零 部 件 总 数 为 Nazo, 问 Nazo 至少 为 100 的 
概率 是 多 少 ? 

我 们 不 能 将 Nazo 表示 独立 随机 变量 的 和 , 但 是 我 们 可 以 换 一 种 观点 来 处 理 问 
题 . 记 XX; 为 第 i 个 零件 的 加 工时 间 , 而 Sioo = XI 十 :… 十 Xioo 是 前 100 个 零 部 件 
的 加 工 总 时 间 . 事件 {Na2zo > 100} 和 事件 {Si0o < 320} 是 同一 个 事件 , 而 且 后 者 


事件 中 的 Sioo 是 独立 同 分 布 的 随机 变量 之 和 , 它 的 分 布 可 用 正 态 分 布 来 近似 . 注 


意 到 jy = E[Xi] = 3,o2 = var(Xi) = 6 4/3. 计算 


2 320— np _ 320 — 300 


= 1.73, 


av Vi00Ox4/3 
则 概率 可 以 近似 为 
P(Si00 < 320) ~ ®(1.73) = 0.958 2. 口 


5.4 中 心 极限 定理 ”239 


车 X; 的 方差 未 知 , 此 时 我 们 只 能 得 到 概率 的 上 界 . 使 用 正 态 近 似 的 方法 可 以 
得 到 人 们 感 兴趣 的 事件 的 概率 上 界 . 
例 5.11 (选举 问题 ) ”现在 重新 考虑 例 5.5 的 选举 问题 . 设 对 ”个 选民 进行 调查 ， 
记录 下 他 们 狗 成 某 候选 人 的 比例 Mi， 


入 十 ,十 六 
Ma = 一 一 


其 中 X 是 被 调查 的 第 i 个 选民 的 态度 , Xi = 1 表示 选民 i 支持 某 候选 人 , Xi = 0 
表示 选民 i 反对 某 候 选 人 . 假设 p 是 这 个 候选 人 在 全 体 选 民 中 的 支持 率 , 则 X; 是 
服从 参数 为 p 的 伯 努 利 随 机 变量 . 故 Mn 的 均值 为 p, 方差 为 p(1 一 p)/n. 利用 中 
心 极限 定理 , Mr 近似 服从 正 态 分 布 . 

下 面 计算 概率 P(|Wn 一 p| > 6),e 是 估计 精度 , 即 计 算 调查 这 n 个 人 的 支持 率 
与 全 体 选民 的 支持 率 相差 大 于 。 的 概率 . 由 正 态 分 布 的 对 称 性 , 可 得 


P(|[Mn —p| > €) ~ 2P(Mn —p > e). 


显然 Mn 一 p 的 方差 为 p(1 一 p)/n, 依赖 于 未 知 参数 p, 所 以 也 是 未 知 的 . 注意 , 偏离 
均值 的 概率 随 着 方差 的 增 大 而 增 大 , 所 以 为 了 得 到 概率 P(M -2p > 6) 的 上 界 , 人 
们 可 以 假设 Mn - 2 有 最 大 的 方差 , 即 当 p = 1/2 时 , 方差 为 1/(4n). 为 此 , 先 计算 


所 以 
P(Mn—p>e) <1— (2)=1— $(2evn). 


例如 , 当 n = 100,e = 0.1 时 , 假设 方差 取 最 大 值 , 且 M, 是 近似 正 态 的 , 此 时 


P(IM;, ~ p| 2 0.1) = 2P(M, — p>0.1) 
< 2—28(2.0.1.V100) = 2— 28(2) = 0.046. 


由 此 得 到 P(|Mi, 一 p| > 0.1) 的 上 界 为 0.046, 这 比 在 例 5.5 中 使 用 切 比 雪夫 不 等 式 
得 到 的 上 界 0.25, 要 小 的 多 , 所 以 更 准确 . 

现在 考虑 另 一 个 问题 . 如 果 希 望 估 计 M， 与 真 值 p 的 差距 为 0.01 之 内 的 概率 
至 少 是 0.95, 则 样本 容量 ” 应 该 多 大 ? 现在 我 们 假设 最 坏 的 情况 发 生 , 此 时 MM 的 
方差 达到 最 大 , 这 个 假设 引 向 条 件 


2 — 2 (2.0.01: Vn) < 0.05, 


即 
B(2.0.01. Vn) > 0.975. 
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根据 正 态 分 布 表 , 可 查 得 8(1.96) = 0.975, 所 以 上 式 等 价 于 


2.0.01. Vn > 1.96, 


和 1.962 

nN 之 T0013 = 9 604. 
这 个 结果 是 比较 理想 的 , 若 使 用 切 比 雪夫 不 等 式 , 需要 50 000 个 样本 才能 保证 上 述 
结论 . 口 


当 一 oo 时 , 正 态 近似 就 会 越 精确 , 但 是 在 实 工 中 , 样本 容量 ”是 固定 的 有 
限 的 . 所 以 须知 道 n 多 大 时 , 正 态 近似 的 结果 是 可 信和 的 . 可 惜 的 是 , 没有 简单 和 普 
遍 的 准则 来 判断 ， 这 要 依赖 于 总 的 分 布 是 否 与 正 态 分 布 接近 , 特别 地 , 还 依赖 于 
Xi 的 分 布 是 否 对 称 . 比如 说 , 假设 X; 是 均匀 分 布 , 则 Ss 就 已 经 与 正 态 分 布 接近 
了 . 但 是 如 果 X; 是 指数 分 布 , 那么 ”必须 要 充分 大 , Sn 的 分 布 与 正 态 分 布 才 接近 . 
进一步 , 使 用 正 态 近似 计算 P(5,, < c) 的 时 候 , 其 近似 的 程度 与 c 的 值 有 关 . 一 般 
来 说 , 如 果 c 在 5;, 均值 的 附近 , 其 精度 会 更 高 一 些 . 

5.4.2 ”二 项 分 布 的 棣 莫 弗 - 拉 普 拉 斯 近似 


服从 参数 为 n 和 p 的 二 项 分 布 的 随机 变量 5, 可 以 看 成 n 个 服从 参数 为 p 的 

伯 努 利 分 布 的 独立 随机 变量 Xi,… , XX, 的 和 : 
Sn = Xi + +X. 
显然 
kL=EXi]=p, o= Vvar(Xi)= Vp(l —p). 

现在 使 用 中 心 极限 定理 去 近似 事件 {k < Sn < 中 的 概率 , 其 中 和 1 是 给 定 

的 整数 . 实际 上 , 运用 事件 的 等 价 性 
k—np Sn — np ti—np 

个 TD Vo Vo 
将 事件 表达 成 标准 化 随机 变量 的 形式 . 利用 中 心 极限 定理 可 知 es 近似 服从 
标准 正 态 分 布 , 所 以 


kg Son! 


k—np Sn — np i—np 
Pk<Sn DD)=P| oe 和 < 
人 Cn | 


~ (在 号 _ os ( 壤 与 | 
Vnp(l —Dp) np 中信 
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上 述 近似 方法 等 价 于 将 S,, 看 成 均值 为 wp, 方差 为 np(1 - p) 的 正 态 分 布 . 图 
5.3 表明 , 如 果 和 蔡 换 成 -了 和 7+, 则 概率 的 近似 结果 更 加 准确 , 下 面 给 
出 相关 的 近似 公式 . 


二 项 分 布 的 棣 莫 弗 - 拉 普 拉 斯 近似 
设 Sn 是 服从 参数 为 n 和 p 的 二 项 分 布 , n 充分 大 ,kk 和 1 是 非 负 整数 , 则 


和) -所 二) 
Vnp(l — 7p) Vnp(l — 2») 


(b) 

图 5.3 ” 正 态 近似 将 二 项 分 布 随机 变量 5,, 看 成 均值 为 np, 方差 为 np(1 一 p) 的 正 态 分 布 . 
中 显示 二 项 分 布 的 分 布 列 和 相应 的 正 态 密度 函数 . (a) 概率 值 P(k < Sn < 1) 可 以 由 
正 态 分布 密 度 函 数 从 到 ! 进行 积分 计算 , 即 图 形 中 阴影 部 分 的 面积 , 使 用 这 种 方法 ， 
当天 = 1 时, 概率 P(k < 5% < 1) 就 会 近似 为 0. (b) 弥补 这 个 缺陷 的 方法 就 是 用 区 
间 [一 二 1 十 直 内 正 态 分 布 的 概率 来 近似 使 用 这 种 想法 , P(Ek < Sn < 1) 可 以 用 正 
态 密度 函数 在 区 间 [k -- 亏 ! 十 引 内 的 面积 来 近似 


当 p 靠近 1/2 时 , X; 的 分 布 列 是 对 称 的 , 当 n 接近 40 或 50 时 , 使 用 上 述 近 
似 方法 就 能 得 到 很 好 的 结果 . 当 p 靠近 1 或 0 时 , 这 个 近似 结果 就 不 好 , 这 时 需要 
更 大 的 n, 才能 得 到 相同 的 精度 . 
例 5.12 设 5 是 服从 参数 为 n= 36 和 p=0.5 的 二 项 分 布 , 则 


21 
P(S, < 21)= > (人 0.536 — 0.878 5 
k=0 
是 精确 的 概率 . 
使 用 中 心 极限 定理 , 若 端 点 不 经 过 修正 , 上述 概率 可 以 近似 为 


P(S, < 21) = 更 人 一 (2 = =) = $(1) = 0.841 3. 
np(1 —p) 3 


车 端点 经 过 修正 , 可 以 得 到 


21.5 — .5—1 
P(S, <2D)~6| 2 |es (2 = ®(1.17) = 0.879. 
np(1 一) 3 
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上 述 计算 说 明 , 端点 经 过 修正 以 后 , 近似 的 概率 与 精确 概率 非常 接近 . 
使 用 端点 修正 技术 , 同样 可 以 近似 Sn" 在 单 点 的 概率 , 比如 ， 


19.5 一 = G Gs 一 18 


Ps =19) ~ ( 3 3 


) = 0.691 5 一 0.567 5 = 0.124, 


这 也 与 真 值 
P(S, = 19) = G0)os” =0.1251 


5.5 ”强大 数 定律 


强大 数 定律 与 弱 大 数 定律 一 样 , 都 是 指 样本 均值 收敛 于 真 值 jy. 但 是 , 它们 强 
调 的 是 不 同 的 收敛 类 别 . 

下 面 是 强大 数 定律 的 一 般 陈述 . 在 本 章 末 尾 的 习题 中 , 在 X; 的 四 阶 矩 有 限 的 
附加 条 件 之 下 给 出 了 证 明 . 


强大 数 定律 . 


设 Xi1,X2,… ,Xn 是 均值 为 4 的 独立 同 分 布 随机 变量 序列 ， 则 样本 均值 
Mn 二 (Xi 十 X2 十 … 十 Xn)/n 以 概率 1 收敛 于 4, 即 


基 | 十 完 十.…: 十 六 
P (im 1 十 2 + * = -1 


为 解释 强大 数 定律 , 还 是 采用 样本 空间 的 概率 模型 来 解释 . 由 于 试验 是 由 无 穷 
长 的 一 串 独立 重复 的 小 试验 序列 组 成 , 每 次 试验 的 结果 , 就 是 随机 变量 序列 X1,X2,…… 
的 一 个 数据 的 无 穷 序列 z1,x2,…， 所 以 ,人 们 可 以 把 样本 空间 定义 为 无 穷 序 列 
w = (zl,z2,…) 的 集合 : 任何 一 个 无 穷 的 数列 都 可 能 是 试验 的 一 个 结果 . 现在 考虑 
样本 空间 中 的 一 个 集合 4 : {w : w = (z1,7z2,…)}, 4 中 的 样本 满足 如 下 条 件 : 在 极 
限 意义 下 的 样本 均值 为 y, 即 


(zz …) EA > lim Z1 十 72 十 … 十 Zn =. 
了 一 co nn 


强大 数 定律 是 指 样本 空间 中 几乎 所 有 可 能 的 样本 点 都 集中 在 这 个 特殊 的 子 集中 . 换 
句 话 说, 所 有 不 在 4 中 的 可 能 结果 组 成 的 子 集 的 概率 为 0. 

强大 数 定律 与 弱 大 数 定律 的 区 别 是 细微 的 , 需要 仔细 说 明 ， 弱 大 数 定律 是 指 
Mn 显著 性 偏离 j 的 事件 的 概率 P(|M 一 4| > 6), 在 一 co 时 , 趋 于 0. 但 是 对 任 
意 有 限 的 n, 这 个 概率 可 以 是 正 的 . 所 以 可 以 想象 的 是 , 在 Mr 这 个 无 穷 的 序列 中 ， 
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常常 有 Mn" 显著 偏离 jy. 弱 大 数 定律 不 能 提供 到 底 有 多 少 会 显著 性 偏离 jy, 但 是 强 
大 数 定律 却 可 以 . 根据 强大 数 定律 , 以 概率 1， Mr 收敛 于 jp. 这 意味 着 , 对 任意 的 
e > 0, 偏离 Mn 一 pl 超过 e 的 , 只 能 发 生 有 限 次 . 

例 5.13 (概率 与 频率 ) ”在 例 5.4 中 , 考虑 某 试验 中 事件 4 发 生 的 概率 . 在 多 次 进 
行 重复 试验 中 , 记 Mn 为 n 次 试验 中 事件 4 发 生 的 频率 . 强大 数 定律 保证 M 以 
概率 1 收敛 于 P(4). 相 比 之 下 , 弱 大 数 定律 则 保证 Mn 依 概 率 收敛 于 P(4) ( 见 例 
5.4). 

我 们 经 常 将 事件 4 的 概率 直观 地 解释 为 独立 重复 无 穷 试验 序列 中 事件 4 出 
现 的 频率 . 强大 数 定律 支持 了 这 种 直观 的 解释 ， 并 且 指 出 在 独立 重复 的 试验 序列 
中 , 可 以 肯定 地 说 ( 即 事件 发 生 的 概率 为 1): 事件 4 长 时 间 出 现 的 频率 就 是 概率 
P(A). 口 
以 概率 1 收 全 

强大 数 定律 中 的 收敛 与 弱 大 数 定律 中 的 收敛 是 两 个 不 同 的 概念 ， 现 在 给 出 以 
概率 1 收敛 的 定义 , 并 讨论 这 个 新 概念 . 


以 概率 1 收敛 
设 六, 5,-…， 是 某 种 概率 模型 下 的 随机 变量 序列 (但 不 必 独 立 ),e 是 某 个 实 
数 , 如 果 


P( lim Yh =e)=1, 
则 称 Y, 以 概率 1 (或 几乎 处 处 ) 收敛 于 c. 


类 似 于 前 面 的 讨论 , 我 们 应 该 正确 理解 以 概率 1 这 种 收敛 类 型 , 这 种 收敛 也 是 
在 由 无 穷 数列 组 成 的 样本 空间 中 建立 的 : 若 某 随机 变量 序列 以 概率 1 收敛 于 常数 
c, 则 在 样本 空间 中 , 全 部 的 概率 集中 在 满足 极限 等 于 c 的 无 穷 数列 的 子 集 上 .但 
这 并 不 意味 其 他 的 无 穷 数 列 是 不 可 能 的 , 只 是 它们 是 非常 不 可 能 的 , 即 它们 的 概率 
为 0. 
例 5.14 设 Xi,X2,… 是 独立 随机 变量 序列 , X; 的 公共 分 布 是 区 间 [0, 1] 中 的 均 
勾 分 布 . 令 六 , = min{X1,… ,XX%}. 下 面 证 明 YY 以 概率 1 收敛 于 0. 

注意 , 7, 是 非 增 的 , 即 对 所 有 的 mw Yi,41 < .既然 序列 Y, 有 下 界 0, 所 以 一 
定 有 极限 , 将 这 个 极限 记 为 Y. 固定 e > 0, 如 果 Y > e 则 对 所 有 的 i 都 有 X; > e， 
故 对 所 有 的 n, 有 


Pl(Y >¢e€ &PY 226 ,2e) = (1-e)". 


P(Y >e) < lim (1-e)"”*=0. 
了 下 DO 
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这 就 证 明了 对 任意 的 正 数 6, P(Y > 日 =0. 故 P(Y >0)=0, 从 而 P(Y =0)= 
1. 又 因为 Y 是 多 的 极限 , 所 以 ,以 概率 1 收敛 于 0. 口 

以 概率 1 收敛 蕴含 依 概率 收敛 ( 见 本 章 末尾 的 习题 ), 但 反之 不 成 立 . 下 一 个 例 
子 说 明 依 概率 收敛 和 以 概率 1 收敛 的 区 别 . 
例 5.15 ”考虑 一 个 离散 时 间 到 达 的 过 程 ， 我 们 假定 到 达 的 时 刻 属于 正 整数 集 
合 {12,…:}， 现 将 这 个 集合 分 割 成 若干 互 不 相交 的 集合 (区 间 ) I = {2*,2* 十 
1,… ,2*+1 一 1},k 二 0,1,.…. 注意 , I 的 长 度 是 2*, 随 着 的 增 大 而 增 大 . 假定 在 
每 个 区 间 天, 只 有 唯一 的 一 个 到 达 时 刻 , 且 在 区 间 内 每 个 时 刻 到 达 是 等 可 能 的 , 在 
各 个 区 间 到 达 时 刻 是 相互 独立 的 . 车 记 第 个 区 间 了 内 的 到 达 时 刻 为 nk, 则 nj 
是 相互 独立 的 随机 变量 序列 , & = 1,… ,. 现在 定义 随机 变量 序列 Y,: 如 果 在 时 刻 
到 达 了 , 则 定义 坏 , = 1, 否则 定义 ,= 0. 

如 果 ne , 则 P( 丈 和 关 0) = 2-*. 注意 到 , 对 任意 的 n, 存在 唯一 的 有 , 使 得 
ne 了. 而 且 随 着 n 的 增 大 ,& 也 随 之 增 大 , 所 以 


lim P(Yh, #0)= lim 2 天 一 0. 
n—00 天 一 co 


故 并, 依 概率 收敛 于 0. 但 是 在 每 个 区 间 I 都 有 到 达 时 刻 , 所 以 到 达 的 次 数 是 无 穷 
多 次 的 , 所 以 存在 无 穷 多 个 n, 使 得 到 = 1. 这 样 , 事件 {lim Yh = 0} 的 概率 为 0， 
即 到 不 以 概率 1 收敛 . 

直觉 上 看 , 对 任意 给 定时 刻 n, 3, 与 0 的 偏差 显著 大 于 0 的 概率 很 小 , 而 且 随 
着 n 的 增 大 , 概率 在 减少 . 这 就 是 说 芭 是 依 概率 收敛 的 序列 . 另 一 方面 , 只 要 时 间 
足够 大 , Y, = 1 肯定 会 发 生 , 因此 YY, 就 不 以 概率 1 收敛. 口 


5.6 ”小 结 和 讨论 


本 章 中 , 我 们 讨论 了 概率 论 中 许多 重要 的 理论 , 并 主要 从 概念 和 实际 应 用 两 个 
角度 来 论述 . 从 概念 上 看 , 概率 可 以 看 作 大 量 独立 试验 的 相对 频率 , 并 且 本 章 给 出 
了 其 坚实 的 理论 依据 . 从 实 牙 角度 上 看 , 对 计算 关于 独立 随机 变量 和 的 事件 的 概率 
给 出 了 合理 的 近似 计算 方法 , 而 对 这 些 事件 概率 的 精确 计算 却 往往 很 困难 . 在 统计 
推断 中 , 我 们 将 看 到 这 些 定律 的 大 量 应 用 . 

本 章 论 述 了 如 下 三 个 涉及 极限 理论 的 定律 . 

(a) 弱 大 数 定律 : 表明 在 样本 容量 n 充分 大 时 , 样本 均值 与 真 均值 非常 接近 . 切 
比 雪夫 不 等 式 是 概率 论 中 一 个 非常 有 用 的 不 等 式 . 


二 到 达 时 刻 的 直观 含义 是 非常 清楚 的 , 例如 , 时 刻 ” 到 达 一 位 顾客 , 或 时 刻 n 到 达 一 个 基本 粒子 等 说 
法 . 一 一 译 者 注 
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(b) 中 心 极限 定理 : 概率 论 中 最 重要 的 理论 之 一 . 它 是 指 大 量 独立 随机 变量 之 
和 的 分 布 可 以 近似 为 正 态 分布 . 中 心 极限 定理 有 许多 应 用 , 它 是 统计 分 析 中 的 一 个 
主要 工具 , 而 且 确 信 在 大 量 实例 中 使 用 正 态 模 型 的 假设 的 合理 性 . 

(c) 强大 数 定律 : 将 概率 和 频率 更 加 紧密 地 联系 起 来 , 在 理论 研究 中 也 是 非常 
重要 的 工具 . 

在 研究 极限 理论 中 ， 本章 介 绍 了 很 多 收敛 的 概念 ( 依 概率 收敛 , 以 概率 1 收 
敛 ), 同时 也 提供 了 概率 模型 中 关于 收敛 的 精确 语言 ， 极 限 理论 和 收敛 概念 是 研究 
概率 模型 和 随机 过 程 中 非常 重要 的 课题 . 


习 是 


5.1 节 ”有 用 的 不 等 式 


1， 一 位 统计 学 家 和 欲 估计 某 类 人 群 的 平均 身高 h (以 米 为 单位 ), 然后 在 该 类 人 群 中 随机 抽取 
n 个 人 , 获得 样本 XX1,.… ,X. 他 使 用 样本 均值 M = (Xi 十 … 十 Xn)/n 作为 h 的 估 
计 , 大 致 猜测 X; 的 标准 差 为 1 米 . 

(a) 样本 容量 多 少时 , 使 得 Mi 的 标准 差 最 多 不 超过 1 厘米 ? 

(b) 样本 容量 多 少时 , 使 用 切 比 雪夫 不 等 式 可 以 保证 估计 值 与 h 的 差距 , 至 少 以 0.99 的 
概率 在 5 厘米 之 内 ? 

(c) 该 统计 学 家 认识 到 该 类 人 群 里 所 有 的 人 的 身高 都 在 1.4 米 到 2.0 米 之 间 , 然后 他 基 
于 例 5.3 使 用 的 上 界 方 法 , 来 修正 对 标准 差 的 猜测 ( 即 原来 的 1 米 ). 那么 (a) 和 (b) 
的 结论 如 何 修正 ? 

2.” 切 尔 诺 夫 界 . 切 尔 诺 夫 界 是 概率 论 的 一 个 有 用 的 工具 , 它 是 利用 随机 变量 的 矩 母 函 数 , 给 

出 某 些 尾 事件 的 概率 上 界 . 
(a) 证 明 不 等 式 
P(X>a)e MI(s) 
对 所 有 的 a 和 s > 0 成 立 , 其 中 M(s) = Eles*] 是 随机 变量 X 的 矩 母 函 数 . 假定 
和 矩 母 函数 在 s = 0 的 一 个 小 区 域内 取 有 限 值 . 
(b) 证 明 不 等 式 
P(X <0a)<e ”1M(s) 
对 所 有 的 a 和 s < 0 成 立 . 
(c) 证 明 不 等 式 
P(X >a)< e-4(o) 
对 所 有 的 a 成 立 , 其 中 
go) = max(sa — In M(s)) 


(qd) 证 明 : 如 果 a > E[X], 则 $(a) > 0. 
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(e) 利用 (c) 的 结论 , 试 给 出 P(X > a) 的 上 界 , 其 中 X 服从 标准 的 正 态 分 布 , 并 且 假 
定 a>0. 
(f) 设 XXX， 是 独立 随机 变量 序列 , 与 X 有 相同 的 分 布 . 证 明 对 任意 的 a > E[X]， 


均 有 
1 nn 
Pili- Xi > < —ng(a) 


所 以 样本 均值 超过 均值 一 定量 的 概率 随 着 n 的 增 大 指数 递减 . 
解 (a) 对 任意 的 实数 a 和 s > 0, 定义 随机 变量 


0， 及 < oa， 
y= 车 a 
es ， 若 多 > a. 


显然 
Y, < ex* 
总 成 立 , 所 以 
ElYs] < Ele”*] = M(s). 
另外 
ElYs] = e”P(Y,s = e") = e*P(X > ah， 
故 


P(X>a)<e MI(s). 
(b) 证 明 过 程 类 似 于 (a), 定义 到 如 下 : 


因为 s < 0, 关系 式 


也 < ex 
总 成 立 , 所 以 
ElYs] < Ele’*] = M(s). 
另外 
E[Ys] = e**P(Ys = es) 一 es2P(X < ah， 
故 


P(X & a) <e AM(s). 
(e) 因为 (a) 中 不 等 式 对 所 有 的 s > 0 成 立 , 所 以 
P(X >a)< min (e AM(s)) 一 mine (M0) 


_ max (sa — ln M(s)) _ te) 
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(d) 当 s =0 时 ， 
sa 一 mAM(s)=0 一 nli=0， 

这 里 应 用 了 M(0) = 1, 而 且 
Es0- mm))| 一 Q& 一 Ne ， 人 MG) ,0 1:.E[X] > 0. 
因为 函数 sa 一 In M(s) 在 s = 0 处 的 函数 值 为 0, 且 导 数 是 正 的 , 所 以 当 s 是 很 小 
的 正 数 时 ,函数 一 定 是 正 的 . 故 函数 sa - In M(s) 在 s > 0 的 最 大 值 Wo) 也 一 定 
是 正 的 . 
当 X 是 标准 正 态 分 布 时 ，M{(s) = es /2. 因此 , sa 一 In M(s) = sa 一 s2/2. 为 给 出 
s > 0 时 函数 的 最 大 值 , 先 求 函数 sa 一 s?/2 对 变量 s 的 导数 , 得 a - s, 令 其 为 0， 
解 得 s = a. 从 而 $(a) = a2/2. 所 以 概率 P(X > a) 的 上 界 为 


P(X>a)< er /2. 


注意 , 当 a < 0 时 , 函数 sa - In M(s) 在 s = 0 处 达到 最 大 值 , 所 以 $(a) = 0 时 给 
出 一 个 无 意义 的 上 界 


(e 


_— 


P(X>a)<l1. 
(f) 定义 了 = Xi 十 … 十 Xn. 运用 结论 (c), 可 得 


1 nn 
? (DX 24) =P0 2 0) <oem, 


其 中 
bY (na) = max(nsa — ln My(s)), 
以 及 
My(s) = (M(s))". 
In My(s) = nlnM(s), 所 以 


$Y (na) =n. max(sa ~ In M(s)) = ng(a), 


le ng(a 
卫 (x > <e ao) 
注意 , 当 a > EIX], 结论 (d) 保证 了 g(a) > 0, 所 以 感 兴 趣 的 概率 随 着 n 的 增 大 而 
按 指数 递减 ， 
3.” 乌 生 不 等 式 . 设 实 值 函数 f(z) 二 次 可 微 . 如 果 二 阶 导数 2 f(z) 在 z 的 定义 域内 是 非 

负 的 , 则 称 函 数 f(z) 是 凸 函数 . 
(a) 证 明 函 数 f(z) = e*”, f(z) = -Inz 和 f(z) = x4 都 是 凸 函数 . 
(b) 证 明 : 如 果 /是 凸 的 二 阶 可 微 函 数 , 则 /的 一 阶 Taylor 展开 低估 了 函数 f, 即 


f(a) + (2 -oH < ya) 
对 任意 的 a 和 z 成 立 . 
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(c) 证 明 : 如 果 f 满足 (b) 中 所 述 的 条 件 , X 是 随机 变量 , 则 
f(E[X]) < ELF(X)]. 
解 (a) 


1 d? 4 2 
= 不 > dz 一 12z” 之 0. 


(b) 因为 f 的 二 阶 导 数 是 非 负 的 , 所 以 它 的 一 阶 导数 一 定 是 非 降 .应 用 积分 原理 可 得 
fo)=10+/ Hoaz 0+/ FO/ + -de 
(c) 由 于 (b) 中 的 不 等 式 对 所 有 可 能 取 值 的 > 者 成 立 , 所 以 
Fo) + (X — oH) < FX). 
取 a = E[X], 并 在 上 式 两 边 取 期 并 ,可 得 
(ELX)) + (ED ~ ELXD) $C (EIX]) < BLOG 

即 : 

F(ELX]) < PICO 


5.2 节 ” 弱 大 数 定律 


4. 为 估计 吸烟 人 群 占 总 人 口 的 真实 比例 f, 艾 温 随机 地 从 其 中 抽取 n 人 . 使 用 这 个 人 中 
的 吸烟 人 数 5 除 以 n, 得 到 MM, 作为 该 比例 的 估计 , 即 Mn = 5n/n. 对 于 固定 的 正 数 
e 和 6, 艾 温 为 选取 最 小 的 样本 容量 n, 使 得 下 式 成 立 : 


P(M» — fl > 6S, 


指出 n 随 着 下 面 参数 变化 而 变化 的 规律 . 
(a) *e 缩小 为 原来 的 一 半 . 
(b) 概率 值 6 缩小 为 原来 的 一 半 . 


5.3 节 ” 依 概率 收敛 


5.。 设 Xi ,Xn 独立 同 分 布 , 服从 [一 1,1] 上 的 均匀 分 布 . 证 明 下 列 情形 下 的 随机 变量 序 
列 五 ,了 3,… 依 概率 收敛 , 并 求 出 它们 的 极限 . 
(a) Yh = Xn /n; 
(b) Yn = (Xn) 
(ce) Yh = Xi X2 Xn; 
(d) Yn = max{X1,... ,Xn}. 
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6.* 考虑 两 个 随机 变量 序列 X1, XX2,:.. 和 到 玖 ,…. 假定 Xn 和 区 都 分 别 依 概率 收敛 , c 
为 已 知 常数 , 证 明 : cX，Xn 十 Yn, max{0, Xm}, |Xn|, XnY。 都 依 概 率 收 伍 于 各 自 的 极 
限 . 
解 假设 z 和 yy 分 别 是 Xn 和 YY 的 极限 . 对 任意 的 ce > 0 和 常数 c. 如 果 c = 0, 则 cXn 
对 所 有 的 n, 都 等 于 0, 自然 就 收敛 . 如 果 c 关 0, 则 PllcXn 一 cz| > 6e) = P(Xn 一 z| 
e/|e|) 一 0, 所 以 就 证 明了 cXn 依 概 率 收敛 于 cz. 

对 任意 的 e > 0, 现在 我 们 证 明 概 率 P(|X 十 一 z 一 | 之 6) 一 0. 为 给 该 概率 一 

个 上 限 , 注意 到 : 当 |Xh 十 六 一 x 一 | 之 e 时 , 必 有 |Xn 一 z| 之 e/2, 或 者 |Y 一 y| > e/2 
(或 者 两 者 都 成 立 ). 所 以 , 从 事件 的 角度 看 ， 


{Xn + Yh zy ec {Xn — zl > 6/2 U {Ys — yl > /2}. 
故 
P(Xn + -zy2e) < P(X — 2 > 6/2) +P(IY, — yl > 6/2), 
以 及 由 Xs 和 六, 分 别 依 概率 收 化 于 z 和 y 的 假设 条 件 可 得 


lim P(|/Xn + Yh — 7x- yes lm P(Xn 一 z| > 6/2)+ lim P(IYn, — y| 2 ce/2)=0. 
全 一 DO 一 OO 他 一 DO 


类 似 地 , 事件 {| max{0, Xn} 一 max{0, z}| > e} 包含 在 事件 {|X 一 Z| 之 6} 之 中 . 又 因 
为 im P(|Xn 一 z|> 6)=0, 所 以 


lim P(|max{0, Xn} — max{0, xz}| 之 €)=0. 


这 就 证 明了 max{0, Xn} 依 概 率 收 敛 于 max{0, zx}. 
我 们 有 |Xn| = max{0, Xn} 十 max{0, 一 Xn}。 前 面 已 经 证 明了 max{0, 多} 和 
max{0, 一 Xm} 都 依 概率 收敛 , 所 以 它们 的 和 也 依 概率 收敛 于 max{0, x} 十 max{0, 一 x}. 
最 后 ， 


P(XnYn — zy| > €) = P((Xn — 2)(Yn — Y) + 7Yn + YXn 一 279| > €) 
< P(I(Xn — Zz)(Yn — WD| > /2) + P(rYn + YXn — 27y| > e/2). 
因为 zY%。 和 yXn 都 依 概率 收敛 于 zy, 所 以 上 式 中 后 一 个 概率 值 趋 于 0. 所 以 我 们 只 需 
证 明 
P(|(Xn — 7)(Yn ~ | > e/2) 一 0. 

为 给 该 概率 一 个 上 限 , 注意 到 : 当 |(X% 一 x)(Y% 一 胡 | > e/2 时 , 必 有 |X 一 z| > Ve]3, 
或 者 |Y 一 y| > Ve/2 (或 者 两 者 都 成 立 ). 类 似 于 Xi, + 你 依 概率 收敛 的 证 明 ,同样 可 
以 证 明 P(|(X 一 zx)(Yn 一 切 | > e/2) 一 0. 

7.” 称 随机 变量 序列 X, 为 均 方 收敛 于 常数 c, 如 果 


lim E[(X, 一 c)?] = 0. 


(a) 均 方 收敛 的 随机 变量 序列 必定 依 概 率 收敛 . 
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(b) 给 出 一 个 例子 , 说 明 依 概率 收敛 的 随机 变量 序列 不 是 均 方 收敛 的 . 
解 (a) 假设 X 均 方 收敛 于 常数 c, 利用 马尔 可 夫 不 等 式 , 有 
px -o> 0=P(Xs -od 20) < HO). 
令 n 一 oo, 可 得 
im P(Xn — cl > €) =0, 
即 依 概率 收敛 . 
(b) 在 例 5.8 中 , Yi 依 概率 收敛 于 0, 但 是 E[Y2] = nm” 发 散 到 无 穷 大 . 


5.4 节 ”中 心 极 限定 理 


8. 假设 你 将 在 赌场 玩 轮 盘 赌 ,通常 你 需要 检验 轮 盘 的 公正 性 .其 办 法 如 下 ; 轮 盘 上 标 有 
1~36 的 数字 , 将 轮 盘 转动 100 次 , 然后 计算 轮 盘 停止 在 奇数 点 处 的 总 次 数 . 如 果 次 数 大 
于 55, 则 可 判断 轮 盘 不 是 公正 的 . 假设 轮 盘 是 公正 的 , 试 估计 做 出 错误 判断 的 概率 . 

9. 假设 计算 机 系统 每 天 至 少 出 现 一 次 死机 的 概率 为 5%, 而 且 在 不 同 天 里 , 出 现 死机 的 事件 
是 相互 独立 的 . 求 在 50 天 之 内 计算 机 至 少 有 45 天 没有 死机 的 概率 . 
(a) 试用 二 项 分 布 的 正 态 近似 方法 来 计算 . 
(b) 试用 二 项 分 布 的 泊 松 近似 方法 来 计算 . 

10. 一 工厂 在 第 ”天 生产 小 配件 X 件 , 且 X 是 相互 独立 的 随机 变量 序列 , 均值 为 5, 方差 

为 9. 
(a) 试 给 出 在 100 天 内 生产 至 少 440 件 小 配件 的 概率 的 近似 值 . 
(b) 给 出 最 大 的 n, 使 得 


P(Xi 十 … 十 Xn > 200 十 5n) < 0.05. 
(c) 用 N 表示 小 配件 的 总 产量 首次 超过 1 000 的 天 数 , 计算 N > 220 的 概率 . 

11。 设 Xi, 六 ,Xz,Yz,:…. 是 独立 的 随机 变量 序列 , 服从 [0, 1] 上 的 均匀 分 布 . 定义 

WW 二 tt (V+ Yo) 
试 给 出 概率 P(jW 一 BE[W]| < 0.001) 的 近似 值 . 
中 心 极限 定理 的 证 明 . 设 X1, 义 2,…， 独立 同 分 布 , 均值 为 0, 方差 为 o?. 其 矩 母 函数 为 
Mx(s). 假设 对 某 个 正 实数 d, 当 |s| < d 时 , Mx (s) 是 有 界 的 . 定义 
二 
= 一， 


Mz,.(s) = (mx ( 翅 )) 


(b) 设 Mx(s) 在 s =0 处 附件 存在 二 阶 Taylor 展开 , 即 
Mx(s) =a++bs+ cs2 十 ofs?)， 
其 中 o(s?) 满足 lim o(s2)/s? = 0. 试 写 出 a,b,c 的 表达 式 . 


区 


12. 


Zn 


(a) 证 明 : 2 的 矩 母 函数 为 
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(c) 用 (a) 和 (b) 的 结论 证 明 2 的 矩 母 函数 Mz (s) 收敛 于 标准 正 态 分 布 的 矩 母 函 
数 , 即 对 所 有 的 s， 


lim Mz,(s) = e” /2. 
人 一 OOD _ 


注 ”中 心 极限 定理 的 证 明 就 是 利用 结论 (c) 以 及 如 下 结论 (证 明 在 此 省 略 ): 如 果 Mz, (s) 
收敛 于 一 个 连续 的 随机 变量 2 的 矩 母 函数 Mz(s), 那么 Zn 的 分 布 函数 Fz 必 收敛 于 
2Z 的 分 布 函 数 Fz. 这 个 结论 的 证 明 超出 本 书 的 范围 , 在 此 不 再 论述 . 利用 结论 (c) 和 上 
述 结论 , 可 以 得 到 Zn 的 分 布 函数 Fz。 必 收敛 于 标准 正 态 分 布 的 分 布 函数 , 即 中 心 极限 
定理 成 立 . 

解 (a) 利用 X; 的 独立 性 可 得 


Mz, (s) = Ele’2"] = E |exp {去 x|| 
二 II 


-人 


(b) 利用 和 拖 母 函数 的 矩 性 质 , 有 


d 
Q x(0) ，b ds x(s) ,0 E[X] = 0， 
1 d? EI[X?] o? 
cx ,= -2 = 


(c) 综合 结论 (a) 和 (b), 可 得 


or 人 人-( 阁 呈 (二 


再 由 a = 1,b = 0,c=c2/2, 可 知 


52 s2 n 
Mz,(s) = Qi+ 先 +o( 霹 )) . 


令 n 一 co, 再 利用 ,Jim (1 + S)” = ec 可 得 


lim Mz,(s) = e” /2. 


5.5 节 ”强大 数 定律 


13.” 考 虑 两 个 随机 变量 序列 X1,X2,:…: 和 况 ,Y,…. 假定 X 和 六 分 别 以 概率 1 收敛 于 
a 和 5b, 证 明 Xn 十 YY 以 概率 1 收敛 于 a 十 b. 进一步 , 如 果 YY 关 0, 证 明 Xn/Y 以 概 
率 1 收敛 于 a/b. 
解 ” 记 事件 4 = {Xn 不 收敛 于 中 B = {Ys 不 收敛 于 时, C = {Xn 十 Yi 不 收敛 于 a 十 中 
则 CCAUB. 
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14.” 


15.” 


16.* 
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因为 假定 X 和 区 分 别 以 概率 1 收敛 于 a 和 几 所 以 P(4) =P(B) =0. 故 
P(O) < P(AUB) < P(A)+P(B)=0, 


从 而 P(Ce) = 1 即 Xn 十 你 以 概率 1 收敛 于 a 十 b. 同 理 可 证 : Xn/Y。 以 概率 1 收敛 
于 ayb. 

设 X1, X2,.-. 是 独立 同 分 布 的 随机 变量 序列 , Yi,Y2,... 是 另 一 个 独立 同 分 布 的 随机 变 
量 序列 . 假定 X; 和 区 的 均值 有 限 , 且 YY 十 … 十 不 可 能 为 零 值 . 


X1+:… + Xn 
TT 
是 否 以 概率 1 收敛 ? 如 果 是 , 极限 是 什么 ? 
解 ” 显 然 
7 (Kitt Xn)/n 


"(+ )/n 
运用 强大 数 定律 可 知 , 分 子 和 分 母 都 分 别 以 概率 1 收敛 于 E[X] 和 E[Y]. 利用 习题 13 
的 结论 可 得 2 以 概率 1 收敛 于 E[X]/E[Y]. 
假设 六, Y2,:…， 以 概率 1 收敛 于 常数 c, 证 明 该 序列 依 概 率 收敛 于 常数 c. 
解 ”定义 事件 C = {Yi 收敛 于 c}， 由 假设 可 知 P(C) = 1， 给 定 。 > 0, 定义 事件 
Ak 二 {对 所 有 的 n> k, |Yh 一 c| <e }. 如 果 随 机 变量 序列 区 的 一 组 取 值 序列 收敛 于 
c 则 必然 存在 &, 使 得 > 有 时, Y 与 c 的 偏差 在 e 范围 之 内 . 所 以 , C 中 的 任何 元 素 
必 属 于 某 个 A, 即 
CC La4k 

k=1 
注意 , 事件 序列 4x 是 单调 递增 的 , 即 A C Ap41. 由 事件 A 是 事件 {| 一 c| <} 的 
子 集 可 知 ， 


Lim P(|lYn 一 c| <e)> im P(Ax) = P(UR1Axr) > P(CO)=1. 
上 式 的 第 一 个 等 式 利用 了 概率 的 连续 性 (第 1 章 的 习题 13). 所 以 
lim 了 (| 了 -cl €)=0, 


即 证 明了 Yi 依 概率 收敛 于 常数 c. 
假设 况 , Y2,.… 为 非 负 的 随机 变量 序列 , 且 


[> < co. 


证 明 了 以 概率 1 收敛 于 0. 
注 ”这 个 结论 是 用 来 证 明 序列 以 概率 1 收敛 的 常用 方法 . 为 计算 并 >， Y, 的 期 望 , 人 


们 常用 公式 本 
= 六 Y | = > ElY,l. 
n=1] n=1 


工 7.” 


18. 
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上 式 成 立 的 原因 是 期 望 和 无 穷 和 可 以 交换 顺序 . 当 随 机 变量 序列 是 非 负 值 ， 就 是 著名 的 
单调 收敛 定理 . 这 是 概率 论 中 的 重要 结论 , 该 定理 的 证 明 超 出 本 书 的 范围 . 

解 ” 无 穷 和 | Y 必须 以 概率 1 有 界 . 事实 上 , 如 果 这 无 穷 和 等 于 无 穷 大 的 概率 大 
于 0, 则 其 期 望 一 定 也 是 无 穷 大 . 但 是 如 果 Y, 任何 数值 序列 的 无 穷 和 是 有 界 的 话 ， 那么 
该 序列 一 定 收敛 于 0. 所 以 事件 {w : Yi(w) 一 0} 的 概率 为 1, 即 区 以 概率 1 收敛 于 0. 
考虑 伯 努 利 随 机 变量 序列 X, 记 pn = PLXn = 1) 为 第 n 次 试验 成 功 的 概率 . 如 果 
> ,pn < oo, 证 明成 功 的 总 次 数 以 概率 1 有 界 . (与 第 1 章 习 题 48(b) 的 结果 进行 比 
较 ). 

解 ”使 用 单调 收敛 定理 ( 见 上 个 习题 的 备注 ), 可 得 


B| Dx = >》 E[Xn] 一 >》 ， pn < oo. 
n=1 n= 二 1 n=1 
所 以 


Ce 
>》， Xn < oa， 
n=1 


以 概率 1 成 立 . 所 以 成 功 的 总 次 数 以 概率 1 有 界 . 
强大 数 定 律 的 证 明 . 假设 X1, Xa,… 是 独立 同 分 布 的 随机 变量 序列 , 且 E[Xf] < co, 证 
明 强 大 数 定律 . 
解 ”注意 到 EIXf] < co, 由 此 可 知 X; 的 期 望 是 有 限 的 . 事实 上 , 使 用 不 等 式 |z| < 1+z4， 
可 得 

EIIXi < ED + X#] =1+ EL[X{] < oo. 


首先 假设 E[Xi] = 0. 下 面 证 明 


5|> | < oo0. 
我 们 有 


nn 所 


Xi 十 … 十 Xm) 1 由 
| + | = 3 二 二 > EX Xs, Xis Xisl. 
现在 考虑 上 式 求 和 中 的 各 项 . 如 果 项 中 某 一 下 标 与 其 他 下 标 不 同 , 则 该 项 为 0， 比 如 , 和 
与 i2,is,i4 都 不 相同 , 则 E[Xi] = 0, 从 而 


E[Xi, Xi Xia Xia] = E[Xi ]ELXi, Xis Xis] = 0. 


所 以 上 式 求 和 项 中 非 零 项 要 么 是 E[X#] (共有 n 项 ), 要 么 是 E[X?X2] (i 关 力 . 现在 计 
算 后 者 有 多 少 项 . 获得 这 种 形式 有 三 种 方式 : ij = io 关 isa 二 i 或 者 入 二 记 i2 = ia, 
或 者 i = i4 六 ia = i2. 在 这 三 种 方式 的 每 一 种 方式 中 , 第 一 对 指标 共有 mn 种 选择 , 第 
二 对 指标 共有 n 一 1 种 选择 , 故 每 一 种 方式 共有 n(n 一 1) 项 . 综合 这 三 种 方式 ,一 共有 
3n(n 一 1) 项 . 故 
pCit + Xn) | _ nE[XH] + 3n(n 一 DEL X23] 
n4 n4 
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使 用 不 等 式 zy < (z? 十 好 )/2, 可 得 E[X?X2] < E[X 纠 . 故 
se 十 … - 十 | < nE[X 有 十 3n(n — 1)E[X#] < 3n EIXA] < SEE 
nn n VA Tn 
于 是 
B|> | = BX + + Xn) < 坟 BX < oo. 


二 一 一 
也 
n=] 中 


pe 


最 后 一 步 使 用 了 有 名 的 性 质 : 汗 %>;n“? < co. 这 就 证 明了 (Xi 十 … 十 Xn)4/n4 以 概率 
1 收敛 于 0.( 见 习题 16). 所 以 (Xi 十 … 十 Xn)/m 以 概率 1 收敛 于 0. 即 证 明了 强大 数 
定律 . . 
现在 考虑 一 般 的 情况 :X; 的 期 望 非 零 .， 由 上 述 证 明 方法 可 得 (Xi 十 … 十 Xn 一 
nE[Xi])/n 以 概率 1 收敛 于 0, 故 (Xi 十 … 十 Xn)/m 以 概率 1 收敛 于 E[Xi11. 


第 6 章 ” 伯 努 利 过 程 和 泊 松 过 程 


随机 过 程 是 处 理 包含 时 间 以 及 数据 序列 的 概率 模型 ， 比 如 随机 过 程 可 用 于 如 
下 数据 序列 进行 建 模 : 

(a) 每 天 的 股票 价格 数据 序列 ; 

(b) 足球 比赛 得 分 数据 序列 ; 

(c) 机 器 失效 时 间 数 据 序列 ; 

(d) 交通 网 络 中 的 每 个 点 的 交通 负荷 数据 序列 ; 

(e) 雷达 对 一 架 飞 机 的 定位 数据 序列 . 
序列 中 的 每 个 数据 都 视 为 一 个 随机 变量 , 所 以 简单 地 说 , 随机 过 程 就 是 一 串 (有 限 
或 者 无 限 ) 随机 变量 序列 , 与 概率 的 基本 概念 没有 本 质 的 区 别 . 设 在 某 个 试验 的 样 
本 空间 中 的 每 一 个 试验 结果 , 对 应 着 一 个 数列 ,2 这 个 数列 中 的 每 一 个 数 , 都 对 应 着 
一 个 随机 变量 . 

但 是 , 随机 过 程 还 是 跟 以 前 强调 随机 变量 序列 有 明显 的 区 别 , 主要 表现 在 如 下 
儿 个 方面 . 

(a) 我 们 更 倾向 于 强调 过 程 中 产生 的 数据 序列 之 间 的 相关 关系 . 比如 , 股票 的 
未 来 价格 与 历史 价格 是 什么 关系 ? 

(b) 我 们 对 整个 过 程 中 长 期 均值 感 兴趣 . 比如 , 有 多 大 比例 的 时 间 , 机 器 处 于 闲 
置 ? 

(c) 有 时 , 需要 刻画 某 些 边界 事件 的 似 然 或 者 频率 . 比如 , 在 给 定 的 时 间 内 , 电 
话 系 统 里 所 有 的 电路 同时 处 于 忙碌 状态 的 概率 是 多 少 ? 计算 机 网 络 中 缓冲 器 数据 
泛滥 的 频率 是 多 少 ? 

随机 过 程 的 种 类 非常 多 , 但 是 本 书 我 们 只 讨论 两 类 重要 的 随机 过 程 . 

(i) 到达 过 程 : 我 们 感 兴趣 的 是 某 种 “到 达 ” 特 性 是 否 发 生 . 比如 , 接收 器 接收 
信号 的 时 刻 , 生产 线 上 的 工作 完成 时 刻 , 商店 顾客 的 购买 行为 的 实施 时 刻 , 等 等 . 我 
们 重点 研究 相 邻 到 达 时 间 ( 即 两 次 到 达 之 间 的 时 间 ) 是 相互 独立 的 随机 变量 的 模型 . 
在 6.1 节 , 我 们 考虑 到 达 时 间 是 离散 的 情形 , 相 邻 时 间 服 从 几何 分 布 , 即 伯 努 利 过 
程 . 在 6.2 节 , 我 们 考虑 到 达 时 间 是 连续 的 情形 , 相 邻 时 间 服从 指数 分 布 , 即 泊 松 过 
程 . 


QW 这 里 我 们 强调 的 是 , 在 随机 过 程 中 产生 的 随机 变量 都 是 通常 的 随机 变量 , 它们 都 定义 在 一 个 相同 的 样 
本 空间 上 .相应 的 概率 规律 只 要 求 明确 无 误 地 确定 所 有 随机 变量 集合 的 任何 子 集 的 联合 分 布 , 而 这 
些 联合 分 布 之 间 应 该 具有 某 种 相 容 性 . 
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(ii) 马尔 可 夫 过 程 : 考虑 数据 在 时 间 点 上 演化 , 而且 未 来 数据 的 演化 与 历史 数 
据 有 概率 相关 结构 ， 比 如 , 股票 的 未 来 日 价格 明显 依赖 于 过 去 的 价格 . 但 是 在 马尔 
可 夫 过 程 中 , 我 们 假设 一 类 特殊 的 相关 : 未 来 的 数据 只 依赖 于 当前 的 数据 ,而 与 过 
去 的 数据 无 关 . 对 于 马尔 可 夫 过 程 , 概率 统计 学 家 积累 了 丰富 的 研究 成 果 , 处 理 方 
法 也 已 经 成 熟 , 这 是 第 7 章 讨 论 的 主题 . 


6.1 ” 伯 努 利 过 程 


伯 努 利 过 程 可 视 为 独立 投掷 硬币 序列 , 而 且 每 次 投掷 硬币 正面 朝 上 的 概率 都 是 
p, 0 <p <1. 一 般 而 言 , 伯 努 利 过 程 是 由 一 串 伯 努 利 试验 组 成 .每 次 试验 以 概率 p 
产生 数据 1( 成 功 ), 以 概率 1 一 p 产生 数据 0 (失败 ), 而 且 跟 试验 序列 中 的 其 他 试验 
是 相互 独立 的 . 

当然 , 投掷 硬币 只 是 对 独立 二 进 制 输出 数据 的 一 个 范例 说 明 . 比如 , 伯 努 利 过 
程 经 常用 于 对 诸如 顾客 到 来 , 服务 中 心 找到 工作 等 系统 进行 建 模 . 这 里 , 时 间 被 离 
散 化 为 若干 时 间 段 , 在 第 段 时 间 内 , 至 少 有 一 个 顾客 到 达 服 务 中心 , 就 视 为 第 
次 实验 “成 功 ”. 因此 , 我 们 常常 使 用 “到 达 ” 这 个 词语 , 而 不 用 “成 功 ”, 这 是 由 实 
际 背 景 决定 的 . 

我 们 用 更 加 正式 的 语言 描述 如 下 , 伯 努 利 过 程 为 一 串 相 互 独立 的 伯 努 利 随 机 变 
量 序列 X1,…. ,Xn, 且 对 任意 的 i, 


P(X; = 1) =P( 第 i 次 实验 成 功 ) = p， 
P(Xi = 0) =P( 第 i 次 实验 失败 ) = 1 一 y. 


在 到 达 随 机 过 程 中 , 人 们 常常 感 兴趣 的 是 在 一 定时 间 内 总 到 达 次 数 , 或 者 首次 
到 达 的 时 间 . 对 伯 努 利 过 程 , 前 几 章 里 已 经 得 到 许多 结果 , 现在 总 结 如 下 . 


与 伯 努 利 过 程 相关 的 随机 变量 及 其 性 质 
。 服从 参数 为 ”和 p 的 二 项 分 布 . 这 是 n 次 相继 独立 的 试验 成 功 的 总 次 数 
S 的 分 布 . 它 的 分 布 列 , 期 望 和 方差 是 


QD 有 限 个 随机 变量 的 独立 性 , 可 以 推广 到 一 串 无 限 个 随机 变量 序列 的 独立 性 : 如 果 对 任意 有 限 的 n, 随 
机 变量 Xi1,… , Xn 是 独立 的 . 直观 上 看 , 独立 性 意味 着 获得 任意 有 限 子 集 的 随机 变量 的 信息 , 都 不 
能 对 其 他 变量 提供 任何 概率 信息 , 即 后 者 变量 的 条 件 分 布 函数 与 无 条 件 分 布 函数 是 相同 的 . 
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。 服从 参数 为 p 的 几何 分 布 . 相互 独立 重复 的 伯 努 利 试验 首次 成 功 的 总 次 
数 了 的 分 布 . 它 的 分 布 列 , 期 望 和 方差 是 
pr(t) = p(1 — p)'™, t= 1,2.… 》 


1 工 一 2 
D2 


E[T] = > var(T) = 


6.1.1 ”独立 性 和 无 记忆 性 


伯 努 利 过 程 中 的 独立 性 假设 , 暗含 了 很 多 重要 的 特征 , 比如 无 记忆 性 (无 论 过 去 
发 生 了 什么 , 都 不 能 对 未 来 试验 的 结果 提供 任何 信息 ). 对 这 个 假设 进行 直观 和 正确 
的 了 解 非常 有 用 , 这 能 帮助 人 们 很 快 地 解决 一 些 非常 难 的 问题 . 在 本 小 节 里 , 我 们 
将 加 深 这 种 直觉 . 

我 们 从 与 伯 努 利 过 程 中 的 某 些 实验 结果 相关 的 随机 变量 入 手 . 比如 , 随机 变量 
入 = (Xi 十 Xas)XeX7 涉及 的 是 第 1,3,6,7 次 试验 结果 . 现在 假定 我 们 研究 这 类 随机 
过 程 的 两 个 随机 变量 , 而 它们 所 涉及 的 试验 结果 没有 重 释 , 则 这 两 个 随机 变量 一 定 
是 独立 的 . 这 推广 了 第 2 章 里 的 结论 : 如 果 两 个 随机 变量 UV 和 V 独立 , 则 它们 的 
任何 函数 g(U), h(V) 也 是 独立 的 . 

例 6.1 (a) 设 U 是 第 1~5 次 试验 的 成 功 总 次 数 ,V 是 第 6~10 次 试验 的 成 功 总 次 
数 . 则 U 和 V 独立 . 这 是 因为 UU= Xi 十 … 十 Xs, VV = Xe 十.… 十 Xio, 而 且 集 合 
{X1,.… ,Xs} 与 {Xe,… ,Xi0} 没有 相同 的 元 素 . 

(b) 设 U( 对 应 的 , V) 是 在 奇数 次 (对 应 的 , 偶数 次 ) 试验 序列 中 首次 成 功 的 时 
刻 . UV 是 由 奇数 次 试验 的 结果 序列 X1, Xa,.…， 所 决定 的 , 而 Y 是 由 偶数 次 试验 的 
结果 序列 X2, X4, +. 所 决定 的 . 而 这 两 个 试验 结果 序列 没有 相同 的 元 素 , 所 以 , UV 
和 V 是 相互 独立 的 . 口 

现在 假设 伯 努 利 过 程 运行 了 n 次 , 得 到 了 观测 数据 X1, XX,.… , XX,. 未 来 试验 
序列 Xnt1, Xn+2…， 仍然 是 独立 的 伯 努 利 试验 , 形成 了 新 的 伯 努 利 过 程 . 进一步 ， 
这 些 未 来 试验 与 过 去 的 试验 都 是 独立 的 . 所 以 , 我 们 可 以 得 出 这 样 的 结论 : 从 任意 
一 个 时 刻 开始 , 未 来 也 可 以 用 相同 的 伯 努 利 过 程 来 建 模 , 而 且 与 过 去 相互 独立 .人 
们 称 这 种 伯 努 利 过 程 性 质 为 重新 开始 . 

注意 到 伯 努 利 过 程 首 次 成 功 时 试验 的 总 次 数 了 服从 几何 分 布 . 假设 我 们 已 经 
观测 过 程 ” 步 , 但 是 没有 “成 功 ”的 结果 出 现 . 那么 人 们 对 直到 出 现 “ 成 功 ” 的 结 
果 进 行 余下 的 实验 次 数 工 - m” 有 什么 结论 呢 ? 既然 未 来 的 过 程 (n 次 之 后 的 过 程 ) 
与 过 去 的 过 程 是 独立 的 , 而 且 重 新 构成 一 个 “重新 开始 ”的 伯 努 利 过 程 , 所 以 , 直到 
出 现 “ 成 功 ” 的 结果 的 未 来 实验 次 数 仍然 是 相同 的 几何 分 布 . 即 


P(T—-n=tT >n)=(1-p) lp=P(T=t), #1=1,2,... 
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人 们 称 这 种 性 质 为 无 记忆 性 质 ， 当 然 这 个 性 质 可 以 运用 条 件 概率 的 定义 来 进行 数 
学 的 推导 , 但 是 刚才 这 种 推理 过 程 更 加 直观 . 


与 伯 努 利 过 程 相 关 的 独立 性 质 
。 对 任意 给 定 的 时 间 n, 随机 变量 序列 Xnt1, Xn+2,… (过程 的 将 来 ) 也 是 
伯 努 利 过 程 , 而 且 与 Xi …… ,Xn (过 程 的 过 去 ) 独立 . 


。 对 任意 给 定 的 时 间 n, 令 工 是 时 间 n 之 后 首次 成 功 的 时 间 , 则 随机 变量 
人 一 n 服从 参数 为 p 的 几何 分 布 , 且 与 随机 变量 X1,… ,Xn 独立 ， 


例 6.2 计算 机 执行 的 任务 分 为 两 类 : 优先 任务 和 非 优先 任务 . 计算 机 将 运行 时 间 
划分 为 互相 连接 的 时 间 小 区 间 , 每 个 小 区 间 称 为 “瞬间 ”(slot), 时 间 区 间 就 实现 了 
离散 化 . 计算 机 在 每 一 个 瞬间 只 有 两 个 状态 : 忙碌 或 空闲 . 这 样 计算 机 运行 状态 形 
成 一 个 随机 过 程 . 假定 各 个 瞬间 的 忙 闲 是 相互 独立 的 . 又 假定 在 每 个 瞬间 的 开始 ， 
优先 任务 以 概率 p 到 达 , 而 且 与 其 他 瞬间 是 独立 的 . 当 优 先 任务 到 达 的 时 候 , 计算 
机 执行 优先 任务 , 处 于 忙碌 的 状态 . 非 优先 任务 总 是 处 于 等 待 状态 , 只 有 在 没有 优 
先 任务 的 前 提 下 , 才 会 执行 . 当 计 算 机 执行 非 优先 任务 的 时 候 , 称 计 算 机 处 于 空闲 
的 状态 . 这 样 计算 机 在 各 瞬间 的 状态 形成 一 个 随机 过 程 . 

在 这 种 背景 下 , 人 们 关心 的 是 非 优先 任务 运行 的 时 间 间 隔 的 概率 特性 . 我 们 称 
顺序 相连 的 瞬间 形成 的 时 间 区 闻 称 为 段 , 段 的 长 度 就 是 这 个 时 间 区 间 内 的 瞬间 数 . 
现在 我 们 来 推导 下 列 随 机 变量 的 分 布 列 , 均值 和 方差 . 

(a) 了 = 首 个 空闲 瞬间 的 时 间 指 标 ; 

(b) B = 首 个 忙碌 段 的 时 间 长 度 ( 即 忙碌 段 中 含有 的 忙碌 瞬间 的 个 数 ); 

(c) 了 = 首 个 空闲 段 的 时 间 长 度 ; 

(d) 2 = 第 一 个 忙碌 瞬间 之 后 直到 出 现 首 个 空闲 瞬间 的 瞬间 数 ( 含 这 个 空闲 瞬 
间 , 但 不 含 第 一 个 忙碌 瞬间 ). 


< B < 工 ， 
[BlalBlIlzlalslalalrlIlIlIlaB| 
一 一 一 一 一 寺 间 

T 人 要 恨 ”” 宗 用 眉 时 间 
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图 6.1 随机 变量 示意 图 , 例 6.2 中 的 忙碌 时 间 段 和 空闲 时 间 段 ， 在 上 图 中 , 了 = 4,B = 
3,T 二 2,2Z = 3, 在 下 图 中 , T=1,I=5,B=4,2=4 
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?7 是 服从 参数 为 1 一 p 的 几何 分 布 随机 变量 , 其 分 布 列 是 
pT(k) = p* 1(1 — p), k= 1,2,... 


均值 和 方差 是 


__p 
(1 —p)? 


现在 我 们 考虑 第 一 个 忙碌 时 间 段 . 起 始 于 第 一 个 忙碌 瞬间 , 称 之 为 瞬间 工 (图 
6.1 的 上 图 , 工 = 1, 下 图 上 = 6.) 直到 出 现下 一 个 空闲 瞬间 (包括 这 个 瞬间 ) 的 瞬间 
数 Z 与 了 具有 相同 的 分 布 , 这 是 因为 伯 努 利 过 程 从 时 间 L +1“ 重 新 开始 ”. 然后 
我 们 注意 到 2 = B, 所 以 B 与 了 一样 , 具有 相同 的 分 布 列 . 

如 果 我 们 将 空闲 瞬间 和 忙碌 瞬间 的 位 置 对 换 , 把 p 换 成 1 - p, 则 第 一 个 空闲 
段 的 长 度 7 与 第 一 个 忙碌 段 的 长 度 具 有 一 样 的 分 布 列 , 所 以 


E[T] = 二 var(T) 


kl _ _1 _ 工 一 2 
p(k)=(1—p) D， k=1,2,..., PP 四 一 有 var(T) = 页 
最 后 注意 到 上 述 结 论 对 第 2, 3, 4 等 忙碌 (或 空闲 ) 段 , 都 是 成 立 的 . 所 以 计算 
得 出 的 分 布 列 也 可 以 应 用 在 任何 第 i 个 忙碌 (或 空闲 ) 段 . 口 
如 果 我 们 从 时 间 ” 才 开 始 观 测 伯 努 利 过 程 , 这 等 价 于 我 们 重新 观察 一 个 新 的 
伯 努 利 过 程 . 进一步 , 我 们 可 以 从 任何 随机 的 时 间 N 开始 观测 伯 努 利 过 程 , 得 到 的 
结论 是 一 样 的 , 即 重新 观察 一 个 伯 努 利 过 程 . 当然 这 里 的 N 完全 由 过 程 的 过 去 决 
定 , 不 能 对 未 来 提供 任何 信息 . 事实 上 , 在 例 6.2 中 , 在 讨论 2 的 分 布 列 时 候 , 我 们 
强调 了 过 程 是 从 工 二 1 个 瞬间 重新 开始 的 , 运用 了 这 个 性 质 , 就 可 以 得 到 2 与 工 同 
分 布 的 结论 . 现在 再 举 一 个 例子 , 考虑 一 个 轮 盘 赌 轮子 , 出 现 红色 就 视 为 成 功 . 从 任 
意 一 次 旋转 (比如 , 第 25 次 ) 开始 记录 数据 , 它 遵从 的 概率 特征 与 从 连续 5 次 旋转 
出 现 红色 就 立即 开始 记录 数据 所 遵从 的 概率 特征 是 完全 一 样 的 . 这 两 个 例子 , 就 是 
过 程 随时 重新 开始 的 例子 (尽管 我 们 可 以 发 现 有 些 赌 徒 另 有 他 们 的 解释 )， 下面 的 
例子 说 明 同 样 的 结论 , 但 是 更 正式 一 些 . 
例 6.3 (随机 时 间 的 重新 新 开始 ) ” 设 N 是 第 一 次 遇 到 连续 两 次 成 功 的 时 刻 ( 即 ， 
NN 是 满足 X; = Xi = 1 的 第 一 个 让 , 现 求 概率 P(XN41 = XN+2 = 0), 即 紧 接着 
两 次 实验 都 失败 的 概率 . 
直观 上 看 , 一 旦 条 件 Xn_1 = Xw = 1 满足 的 话 , 从 那 时 开始 , 未 来 的 过 程 由 独 
立 的 伯 努 利 实验 组 成 . 所 以 , 关于 未 来 事件 的 概率 与 重新 开始 的 伯 努 利 过 程 的 相应 
概率 是 一 样 的 , 所 以 P(Xw+1 = XN+2 = 0) = (1 一 p)?. 
现在 对 上 述 结论 进行 严格 的 证 明 . 注意 , N 是 一 个 随机 变量 , 利用 全 概率 公式 
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得 到 
P(XN41 = Xwiz=0) — DP nn)P(XN4 = X42 =0N =n) 
= > P(N =n)P(Xn41 = X42 = 0|N =n). 
因为 入 确定 后 事件 {N 二 发 生 , 当 且 仅 当 元 ，.， 区 满足 某 个 特定 的 条 
件 , 而 这 些 随机 变量 与 Xii, X12 是 独立 的 , 所 以 


P(Xn+1 = Xnt2 =0IN=n)= P(Xnt1 = Xnt2 = 0)= (1—p). 
故 


P(XN+1= XN+2=0)= DP(N=n)(1 —p)? = (1—p). 口 


n=1 


6.1.2” 相 邻 到 达 间 隔 时 间 


与 伯 努 利 过 程 相关 的 一 个 重要 的 随机 变量 就 是 第 次 成 功 (或 到 达 ) 的 时 间 ， 
记 为 远 . 与 之 相关 的 变量 是 第 次 相 邻 到 达 的 间隔 时 间 , 记 为 T. 即 所 谓 次 相 
邻 到 达 的 时 间 是 第 一 1 到 达 之 后 到 第 次 到 达 之 间 所 需 的 总 时 间 . 它们 满足 如 
下 关系 

Ti=Y, T=Y -Yi1, k=2,3,.., 
见 图 6.2 所 示 . 同时 它们 还 满足 
Y= 了 十 …: 十 了 Tk. 
Ys 
[olol1ilololololilolililolo| 
时 间 


图 6.2 ” 相 邻 到 达 时 间 示 意图 , 图 中 1 代表 一 个 到 达 . 在 这 个 例子 中 , 了 = 3, TDD = 5, Ts = 
2, Ts = 1. 进一步 , Yi = 3, 六 二 8, Y3 =10, =11 


我 们 已 经 得 到 首次 成 功 的 时 间 五 服从 参数 为 p 的 几何 分 布 . 有 了 第 一 次 在 时 
间 元 成 功 之 后 , 未 来 是 一 个 新 的 伯 努 利 过 程 . 利用 重新 开始 的 原理 , 下 次 成 功 所 需 
的 实验 次 数 有 与 元 有 相同 的 分 布 . 进一步 , 过 去 的 实验 (直到 , 且 包 括 时 间 用 ) 与 
未 来 的 实验 (从 时 间 +1 开始 ) 是 独立 的 . 既然 T 仅仅 由 未 来 的 实验 决定 , 所 以 
2 与 有 独立. 类似 继续 下 去 , 我 们 可 以 得 到 随机 变量 歼 , 歼 ,机 都 是 相互 独立 
的 , 而 且 具 有 相同 的 几何 分 布 . 

这 种 重要 的 方法 , 可 以 给 伯 努 利 过 程 一 个 等 价 的 另 一 种 描述 方法 , 这 种 描述 方 
法 有 时 更 方便 . 
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伯 努 利 过 程 另 一 种 描述 
(1) 开始 于 一 串 相 互 独立 的 ， 参数 为 p 的 几何 分 布 随机 变量 序列 了 ,7T2,…， 


它们 是 相 邻 到 达 时 间 间 滞 . 
(2) 观测 成 功 (或 到 达 ) 的 时 间 为 五 ,五 十 四 ,五 十 五 十 玖 , 等 等 . 


例 6.4 观测 数据 表明 雨天 之 后 , 再 次 下 雨 所 经 过 的 天 数 服 从 参数 为 p 的 几何 分 
布 , 而 且 与 历史 数据 独立 . 求 出 本 月 第 5 天 和 第 8 天 同时 下 雨 的 概率 . 

如 果 我 们 用 几何 分 布 的 分 布 列 来 解决 这 个 问题 ,那么 方法 会 非常 繁琐 ， 但 是 ， 
如 果 我 们 将 下 雨 看 为 “到 达 ”, 则 我 们 就 可 以 对 天 气 描述 为 一 个 伯 努 利 过 程 . 所 以 ， 
任何 一 天 下 雨 的 概率 是 p, 而 且 与 其 他 的 天 数 是 独立 的 . 特别 地 , 在 第 5 天 和 第 8 
天 同时 下 雨 的 概率 就 是 p2. 口 
6.1.3 ”第 次 到 达 的 时 间 

第 上 成功 (或 到 达 ) 的 时 间 i 等 于 个 独立 同 分 布 , 服从 几何 分 布 的 随机 变 
量 之 和 , 即 议 = 十 … 十 了 T%. 这 样 我 们 就 可 以 利用 下 表 计 算 蒜 的 期 望 , 方差 , 分 
布 列 , 见 下 表 . 


第 有 次 到 达 的 时 间 的 性 质 
。 第 大 次 到 达 的 时 间 等 于 前 天 个 相 邻 到 达 时 间 之 和 


了 一下 十 … 十 了 


而 且 五 ，… ,Th 独立 同 分 布 , 服从 参数 为 p 的 几何 分 布 . 
。 Yi 的 期 望 ,方差 分 别 为 


E[Y%] = BIT] + +… + E[T:] = 2 
var[Yx] = var[T1] + :… + var[T%] = Kk(1 — p) 


。 Yh 的 分 布 列 是 


t—1 
py (t) = (1)p -本 t=k,k+1,.. 


这 就 是 有 名 的 阶 数 为 的 帕斯卡 分 布 . 


下 面 我 们 来 证 明 .的 分 布 列 . 首先 注意 到 六 . 不 小 于 k. 对 上 > 及 注意 到 事 
件 {Yi = 要 (第 上 次 成 功 的 时 间 是 t) 发 生 当 且 仅 当 下 面 两 个 事件 同时 发 生 
(a) 事件 4: 第 上 次 试验 成 功 了 ; 
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(b) 事件 B: 在 前 上 - 1 次 试验 中 , 恰好 成 功 了 kk 一 1 次 . 
这 两 个 事件 发 生 的 概率 分 别 是 


P(A)=7, 


PB)= (FTI)e Gp 


进一步, 这 两 个 事件 是 相互 独立 的 (这 是 因为 第 次 试验 成 功 与 否 , 与 前 + 一 1 

次 试验 的 结果 是 独立 的 ), 所 以 
pal) =PO% =D =P(ANB) = PAPB) = ( 1)mxd pe 

证 毕 ， 
例 6.5 在 篮球 比赛 中 , 在 每 分 钟 内 阿利 范 犯 一 次 规 的 概率 是 p, 不 犯规 的 概率 是 
1 一 m 在 不 同 的 分 钟 内 是 否 犯规 是 相互 独立 的 .阿利 水 犯 了 6 次 规 后 , 就 会 被 罚 出 
场 , 否则 的 话 就 能 比赛 30 分 钟 . 那么 参加 篮球 比赛 的 时 间 的 分 布 列 是 什么 ? 

我 们 对 犯规 的 次 数 建立 伯 努 利 过 程 , 参数 为 p. 阿利 不 参加 比赛 的 时 间 为 Z, 如 
果 他 犯规 次 数 为 6, 2 就 等 于 Ye; 如 果 Y6 > 30, 2 就 等 于 30, 即 2 = min{Ys, 30}. 
ys 的 分 布 是 阶 数 为 6 的 帕斯卡 分 布 , 妈 


pys(t) = (3) -ns t=6,7,.….. 
为 求 Z 的 分 布 列 pz(z), 我 们 首先 考虑 z 位 于 6 ~ 29 的 情形 . 在 这 个 区 间 内 ， 
pz(z2)= P(Z =2)=P(Y = 2z)= ( 5 md —p)* 6, z=6,7,...,29. 
2Z = 30 的 概率 则 由 下 式 确定 


29 
pz(30)= 1— Spz(z). 口 


2 一 6 
6.1.4 ” 伯 努 利 过 程 的 分 裂 与 合并 


伯 努 利 过 程 每 次 到 达 的 概率 为 p, 现在 考虑 如 下 的 分 裂 : 每 当 有 一 个 到 达 时 , 我 
们 选择 或 者 保留 下 来 (概率 为 g), 或 者 抛弃 (概率 为 1 - 9), 见 图 6.3. 假设 保留 还 
是 抛弃 的 决定 在 不 同 的 到 达 时 间 时 是 相互 独立 的 . 如 果 我 们 集中 研究 保留 下 来 的 
过 程 , 那么 可 以 看 到 , 保留 下 来 的 过 程 仍然 是 个 伯 努 利 过 程 . 在 每 个 时 间 瞬 间 , 发 生 
一 次 被 留 下 到 达 的 概率 是 pg, 而 且 跟 其 他 的 瞬间 是 相互 独立 的 . 相同 的 原因 , 被 抛 
弃 的 到 达 过 程 也 是 伯 努 利 过 程 , 在 每 个 瞬间 发 生 被 抛弃 的 到 达 的 概率 是 p(1 - 9)， 
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时 间 
| 
原来 的 “| le| le| | | lelel | | lel | 、 
过 程 时 间 
1 一 4 | 
时 间 
6.3” 伯 努 利 过 程 的 分 裂 示 意图 


反之 , 如 果 有 2 个 独立 的 伯 努 利 过 程 (参数 分 别 是 p 和 9), 然后 我 们 采取 如 下 
方法 进行 合并 . 一 个 到 达 被 收录 到 合并 的 过 程 中 , 当 且 仅 当 在 这 两 个 原始 的 过 程 中 ， 
至 少 有 一 个 是 到 达 状 态 . 那么 这 个 事件 发 生 的 概率 是 p + dg 一 pg (等 于 1 减 去 两 个 
过 程 都 没有 发 生 的 概率 (1 - p)(1 - 9).) 既然 不 同 的 时 间 瞬 间 , 两 个 过 程 是 相互 独 
立 的 , 合并 后 的 不 同 的 时 间 瞬 间 仍 然 是 独立 的 . 所 以 合并 后 的 过 程 仍 是 伯 努 利 过 程 ， 
每 次 成 功 的 概率 是 p + dg 一 pq, 见 图 6.4. 


伯 努 利 过 程 几 一 le@l | | | | lelel L | | | | ~ 
| 时 间 
@ 


合并 的 | 

伯 努 利 过 程 @| |® @ 

(2 十 4 一 Dg) | | 时 间 
人 


伯 努 利 过 程 (0 上 | | le@| | | lel | | LIeL | 、 
时 间 
图 6.4 伯 努 利 过 程 的 合并 示意 图 


伯 努 利 过 程 (或 其 他 过 程 ) 的 分 裂 和 合并 在 实际 中 经 常 发 生 ， 比 如 , 两 个 机 器 
工作 中 心 可 能 有 零 部 件 到 达 流水 线 , 然后 把 每 个 零 部 件 随机 分 开 到 某 一 个 机 器 . 反 
之 , 一 个 机 器 可 能 面临 许多 不 同类 型 的 零 部 件 , 然后 合并 成 一 条 流水 线 . 


6.1.5 ”二 项 分 布 的 泊 松 近似 


n 次 独立 的 伯 努 利 试验 成 功 的 次 数 是 一 个 二 项 分 布 的 随机 变量 , 参数 为 n 和 
2, 期 望 为 mp. 在 本 小 节 里 , 我 们 集中 处 理 一 类 特殊 的 情况 : n 充分 大 , 而 p 很 小 ， 
均值 np 比较 适中 . 这 种 情况 发 生 在 人 们 考虑 的 不 是 离散 时 间 , 而 是 连续 时 间 的 情 
形 , 这 是 6.2 节 讨 论 的 主题 . 例如 , 人 们 考虑 任何 一 天 内 发 生 飞 机 事故 的 总 数 ,飞机 
飞行 次 数 ”很 大 , 但 是 每 次 飞机 发 生 事故 的 概率 p 很 小 或 者 考虑 一 本 书 上 的 总 
共 错 误 数 : 单词 非常 多 , 但 是 拼 错 的 概率 很 小 . 

数学 上 , 我 们 可 以 这 样 处 理 , 让 n 增长 , 但 是 同时 缩小 p, 这 样 可 以 保持 它们 的 
乘积 np 是 一 个 固定 值 >、 从 极限 意义 上 看 , 二 项 分 布 的 分 布 列 可 以 简化 为 泊 松 分 
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布 列 . 下 面 将 提供 精确 的 描述 , 注意 , 泊 松 分 布 列 已 在 第 2 章 里 推导 出 了 很 多 很 好 
的 性 质 . 


二 项 分 布 的 泊 松 近似 
。 参数 为 和 的 泊 松 分 布 的 随机 变量 2 取 非 负 整 数值 , 其 分 布 列 如 下 
二 oA 


pz(k) kl 


k=0,1,2,... 
均值 和 方差 是 
ElZ2] = 入 var(2) = 入. 
e 当 n 一 00, p= 二 入 /n 时 , 二 项 分 布 的 概率 


nl 


ps(k) = tn Rl 2 人 


1—p)"* 


收敛 到 pz(k), 其 中 入 是 常数 , 是 任意 的 非 负 整数 . 
。 一 般 而 言 , 泊 松 分 布 是 二 项 分 布 的 一 个 很 好 的 近似 , 只 要 入 = np, n 非常 
大 , p 非常 小 . 


现在 我 们 验证 泊 松 近似 的 正确 性 , 设 和 = np, 则 


ps(k) = “pr(1—p)" 


_ nm—1)..n—k+1) 和 ] AN 
kn nn 
n nl nki+l Xe 入 Nm 
一 一 .一 ,一 -~ .一 1 一 一 。 
n n n k! n 


固定 , 令 n 一 oo. 比例 项 tl 中 的 每 一 项 都 趋 于 1, 而 且 ? 


nN 


入 AN AN™ 

(1-2) 一 |， (1-2) 一 e—^, 
所 以 对 固定 的 有, 当 n 一 oo, 我 们 有 

k 
ps(k) 一 on. 
例 6.6 ”和 凭 经 验 知 , 当 n > 100, p < 0.01, 入 = np 时 , 泊 松 近似 
A 

一 入 


nl! 天 
eo Rm ?i-? 


) k=0,1,2,...,n. 


@@ 这 里 我 们 使 用 了 有 名 的 公式 limz_oo(1 一 二 )= 一 e-1. 设 z 二 n/ 和 , 则 limn_,oo(1 一 A)"/^=e-!, 
所 以 limn oo(1l 一 2)* = ee . 
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的 精度 有 好 几 位 小 数 . 现在 检验 一 下 近似 的 效果 . 看 看 下 面 这 个 例子 . 

加 里 . 卡 斯 帕 罗 夫 是 国际 象棋 世界 冠军 . 他 在 一 个 表演 赛 中 同时 与 100 名 业 
余 爱 好 者 对 弈 . 从 历史 的 经 验 来 看 , 99% 的 比赛 都 是 卡 斯 输 罗 夫 获胜 (用 精确 的 概 
率 术语 来 说 , 我 们 假设 他 每 局 获胜 的 概率 为 0.99, 而 且 各 局 比赛 独立 ). 现在 我 们 计 
算 他 分 别 获胜 100 场 , 98 场 , 95 场 和 90 场 的 概率 是 多 少 . 

我 们 对 他 总 共 失 败 的 场 数 X 进行 建 模 , 这 是 一 个 二 项 分 布 , 参数 为 n = 100， 
p = 0.01. 所 以 他 分 别 获胜 100 场 , 98 场 , 95 场 和 90 场 的 概率 是 


px(0) =(1 一 0.01)100 = 0.366， 

px(2) = 3910.012(1 — 0.01)% = 0.185, 

px(5) = 370.015( — 0.01)” = 0.002 90, 
px(10) = e001 — 0.01) = 7.006 . 10-8. 


现在 我 们 来 检验 相应 的 泊 松 近似 , 参数 入 = 100 :0.01=1. 即 


pz(0) = = 0.368, 


pz(2) = = 0.184, 


pz(5) = = 0.003 06， 


1 
1 一 el 一 。 。 一 8 
pz(10) =e 101 1.001 :10 


我 们 比较 一 下 二 项 分 布 的 px(k) 和 泊 松 分 布 的 pz(k), 可 以 看 出 它们 对 应 的 结果 是 
相近 的 . 

现在 我 们 再 假设 卡 斯 帕 罗 夫 只 跟 5 名 对 手 同时 对 弈 , 但 是 这 次 对 手 的 水 平 高 ， 
卡 斯 帕 罗 夫 每 场 获胜 的 概率 只 有 0.9. 这 里 二 项 分 布 的 分 布 列 px(k) 中 , n = 5,p = 
0.1, 相应 的 泊 松 分 布 pz(k) 中 , 入 = np = 0.5: 


EO 


px(k) 0.590 0.328 0.072 9 0.008 1 0.000 45 0.000 01 
0.605 0.303 0.075 8 0.012 6 0.001 6 0.000 16 


从 上 表 可 看 出 , 近似 效果 , 虽 不 差 , 但 是 与 n = 100,p = 0.01 情形 下 的 近似 效 
果 , 精确 度 有 显著 的 下 降 . 口 
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例 6.7 有 ?7 个 字符 连 成 一 串 组 成 一 个 信息 包 , 在 一 个 有 了 噪声 的 通道 中 传输 . 每 个 
字符 有 p = 0.000 1 的 概率 在 传输 中 传 错 , 而 且 不 同 字符 的 传输 过 程 是 独立 的 . 问 
为 保证 在 传输 中 发 生 错误 的 概率 不 超过 0.01, 这 时 ”应 该 为 多 少 ? 

每 个 字符 的 传输 可 视 为 一 个 独立 的 伯 努 利 试验 . 所 以 整个 信息 包 发 生 错误 传 
输 的 概率 为 

1—-P(S=0)=1- (1-p)", 

其 中 5 为 错误 传输 的 字符 总 数 . 为 使 整个 信息 包 发 生 错误 传输 的 概率 小 于 0.01, 只 
需 解 不 等 式 1 一 (1 - 0.000 1)* < 0.01, 即 


ln 0.999 


同样 我 们 也 可 使 用 泊 松 近似 的 方法 来 计算 P(S = 0), 即 P(S = 0) = e-^, 这 里 
入 = np = 0.000 1.n. 由 条 件 1 一 e-0000 lm < 0.001, 可 以 得 到 


< ln0.999 
0.000 1 


mn 是 一 个 整数 , 两 种 方法 都 得 出 相同 的 结果 : n 最 多 是 10. 口 


= 10.005. 


6.2 泊 松 过 程 


跟 伯 努 利 过 程 相 比 , 泊 松 过 程 是 连续 时 间 轴 上 的 到 达 过 程 .通常 , 一 个 到 达 过 
程 在 应 用 上 无 法 将 连续 时 间 离 散 化 时 , 就 采用 泊 松 过 程 来 刻画 . 可 以 说 泊 松 过 程 是 
伯 努 利 过 程 的 连续 版 本 . 

现在 从 一 个 例子 来 看 这 种 连续 化 的 必要 性 .考虑 一 个 城市 内 的 交通 事故 的 可 
能 模型 . 可 以 将 时 间 分 割 成 以 分 钟 为 单位 的 时 间 段 , 然后 开始 记录 下 每 分 钟 至 少 发 
生 了 一 次 交通 事故 的 “成 功 ” 数 据 . 假设 交通 事故 率 不 随时 间 而 发 生变 化 , 是 个 常 
数 , 则 在 每 个 时 间 段 内 发 生 事故 的 概率 是 相同 的 . 进一步 假设 (也 非常 合理 ) 在 不 
同 的 时 间 段 里 , 事故 发 生 是 相互 独立 的 . 这 样 得 到 的 成 功 数据 序列 就 是 一 个 伯 努 利 
过 程 . 注意 , 在 实际 生活 中 , 在 相同 的 1 分 钟 时 间 段 里 , 发 生 2 次 或 者 多 次 事故 是 
非常 可 能 的 . 但 是 伯 努 利 过 程 不 能 记 清 楚 到 底 发 生 了 多 少 次 事故 , 特别 地 , 它 无 法 
计算 在 给 定 的 时 间 段 内 的 事故 发 生平 均 次 数 . 

克服 这 个 缺点 的 一 种 可 行 方法 是 把 时 间 段 选 得 非常 小 , 使 得 发 生 两 次 或 多 次 事 
故 的 概率 非常 小 , 以 致 可 以 忽略 . 但 是 多 少 才 算 小 ? 1 秒 钟 ? 还 是 1 毫秒 ? 为 避免 
这 种 随意 的 选择 , 人 们 更 喜欢 考虑 这 个 时 间 段 的 长 度 趋 于 零 的 情况 , 即 连续 型 时 间 
模型 . 


@ 统计 上 也 称 泊 松 过 程 为 点 过 程 . 一 一 译 者 注 
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现在 考虑 连续 型 的 到 达 过 程 , 即 任意 的 实数 t 都 有 可 能 是 到 达 时 刻 . 我 们 定义 
P(k,7) 二 P( 在 时 间 段 长 度 为 7 的 时 间 内 , 有 个 到 达 ). 


注意 这 个 定义 的 内 涵 , 它 没有 指明 区 间 的 位 置 , 这 意味 着 , 不 管 这 个 区 间 的 位 置 在 
哪儿 , 只 要 时 间 区 间 的 长 度 为 7, 这 个 区 间 内 的 到 达 数 的 分 布 律 就 是 P(k,7),k = 
0,1,…. 此 外 , 我 们 还 要 介绍 一 个 正 参数 X, 称 之 为 过 程 的 到 达 率 或 者 强度 . 由 下 面 
的 解释 很 快 就 会 明白 这 个 参数 的 重要 性 . 


泊 松 过 程 的 定义 
一 个 到 达 过 程 , 被 称 为 强度 为 入 的 泊 松 过 程 , 如 果 该 过 程 具有 如 下 性 质 : 
(a) (时 间 同 质 性 ) k& 次 到 达 的 概率 P(k,7) 在 相同 长 度 7 的 时 间 内 都 是 一 样 
的 . 
(b) (独立 性 ) 一 个 特定 时 间 段 里 到 达 的 数目 与 其 他 时 间 段 里 到 达 的 历史 是 独 
立 的 . 
(c) (小 区 间 概 率 ) 概率 P(k,7) 满足 如 下 关系 


P(0,7) = 1— Mr + o(7), 
P(1,7) = Mr + 01(7), 
P(k,7) = op(7), k=2,3,... 
这 里 了 的 函数 o(7) 和 ok(r) 满足 
o(7) 


lim 一 一 = 0， 
7T 一 0 三 


第 一 个 性 质 , 人 们 称 为 “到 达 ” 在 任何 时 候 都 是 “等 可 能 ”的 . 在 任何 长 度 为 
的 时 间 段 里 , 到 达 数 具有 相同 的 统计 性 质 , 即 具有 相同 的 分 布 律 . 这 与 伯 努 利 过 程 
中 的 假设 : 对 所 有 的 试验 , 成 功 的 概率 都 是 p, 是 相对 应 的 . 

为 解释 第 二 个 性 质 , 考虑 一 个 特殊 时 间 长 度 为 + 一 t 的 区 间 [t, 嫂 . 在 这 个 时 间 
段 里 , 发 生 了 大 次 到 达 的 无 条 件 概率 是 P(k,t 一 汪 . 假设 我 们 手 里 有 这 个 区 间 之 外 
的 完全 或 者 部 分 到 达 的 信息 . 那么 性 质 (b) 是 说 , 这 个 信息 是 无 用 的 : 在 比 切 内 发 
生 了 次 到 达 的 条 件 概率 仍 是 无 条 件 概率 P(k,t 一 想 . 这 个 性 质 类 比 于 伯 努 利 过 
程 的 试验 独立 性 . 

第 三 个 性 质 非常 关键 . o(7) 和 ok(7) 项 是 指 它们 相对 7 而 言 , 当 r 非常 小 的 时 
候 , 是 微不足道 的 . 可 以 将 这 些 余 项 理解 为 P(k,7) 做 Taylor 展开 时 , 展开 式 中 的 
O(7?) 项 . 所 以 , 对 非常 小 的 r, 到 达 一 次 的 概率 大 致 是 Xr, 加 上 一 个 微不足道 的 项 . 
类 似 地 , 对 非常 小 的 7, 没有 到 达 的 概率 大 致 是 1 - Xr, 到 达 两 次 或 更 多 次 的 概率 大 
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致 与 P(1,7) 相 比 是 可 以 忽略 的 . 
6.2.1 区间 内 到 达 的 次 数 


现在 开始 推导 泊 松 过 程 中 与 到 达 相 关 的 概率 分 布 . 首先 与 伯 努 利 过 程 建立 联系 
来 计算 一 个 区 间 内 到 达 次 数 的 分 布 列 . 

先 考 虑 一 个 固定 的 长 度 为 7 的 时 间 区 间 , 将 它 分 成 7/6 个 小 区 间 , 每 个 小 区 间 
的 长 度 为 6, 5 是 一 个 非常 小 的 数 , 见 图 6.5. 由 性 质 (c) 可 知 , 任意 一 个 小 区 间 内 有 
两 次 或 更 多 次 到 达 的 概率 是 非常 小 的 , 可 以 忽略 不 计 . 而 且 由 性 质 (b) 知 , 不 同 的 
时 间 段 到 达 的 状况 又 是 相互 独立 的 . 更 进一步 地 , 在 每 小 区 间 内 , 到 达 一 次 的 概率 
大 致 是 X6, 没有 到 达 的 概率 大 致 是 1 - X6. 所 以 这 个 过 程 可 以 大 致 由 伯 努 利 过 程 来 
近似 . 当 5 越 小 , 这 个 近似 就 会 越 来 越 精确 . 

小 区 间 数 : 每 个 小 区 间 内 到 达 数 的 期 望 : 
n=7/6 到 达 的 概率 : np= AT 
p= 
6,6,6.6.6.6 66 


0 一” 时间 
图 6.5 长 度 r 的 时 间 段 内 的 泊 松 过 程 伯 努 利 近似 的 示意 图 
在 时 间 7 到 达 & 次 的 概率 P(k,7) 近似 地 等 于 以 每 次 实验 成 功 概率 为 p = 》6， 
进行 n= 7/6 次 独立 伯 努 利 试验 , 而 成 功 次 的 (二 项 ) 概率 . 现在 保持 > 不 变 , 令 
6 趋 于 0. 我 们 注意 到 , 这 时 时 间 段 数目 ” 趋 于 无 穷 大 , 而 乘积 np 保持 不 变 , 等 于 


》7. 在 这 种 情况 下 , 在 上 节 里 , 我 们 已 经 证 明了 二 项 分 布 趋 于 参数 为 Xr 的 泊 松 分 
布 , 于 是 我 们 可 以 得 到 如 下 重要 结论 


k 
P(k,7T) = ee- cn) ， k=0,1,... 


注意 , 由 e-*" 的 泰勒 展开 , 可 以 得 到 
P(0,7) =e-*" =1— Ar+0(7), 
P(1,7) =AMre 和 = 和 Xr 一 Xr2 十 O(r3) = Ar 十 ol(r)， 
跟 性 质 (c) 相符 . 
利用 泊 检 分布 的 均值 和 方差 的 公式 , 可 以 得 到 
E[N7:] = AM, var(N;) = XT， 
其 中 N; 表示 在 时 间 长 度 为 7 的 时 间 段 中 到 达 的 次 数 . 这 些 公式 一 点 都 不 令 人 惊 


讶 . 这 是 因为 我 们 考虑 的 是 参数 为 n = 7/5 和 p = M6 的 二 项 分 布 的 极限 分 布 , 均 
值 为 np = Xr, 方差 为 np(1 一 四 mp = A7. 
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现在 推导 首次 到 达 的 时 间 的 概率 规律 . 假设 起 始 时 间 为 0, 则 全 > + 上当 且 仅 
当 在 时 间 [0,4 内 没有 一 次 到 达 , 所 以 
Fr(t}=P(T t=1-P(T>t)=1- P(0,t)=1-e*, t>0. 
然后 我 们 对 了 的 分 布 函数 求 导 , 得 到 密度 函数 公式 
fr(t)=Xe*, t>0. 
这 就 说 明 首 次 到 达 时 间 服 从 参数 为 的 指数 分 布 . 我 们 将 得 到 的 结论 总 结 为 下 表 . 
也 可 参见 图 6.6. 


泊 松 过 程 相关 的 随机 变量 及 其 性 质 
。 服从 参数 为 Xr 的 泊 松 分 布 . 这 是 泊 松 过 程 的 强度 为 和 , 在 时 间 长 度 为 了 
的 区 间 内 到 达 的 总 次 数 N+ 的 分 布 . 它 的 分 布 列 ,期望 和 方差 分 别 是 


k 
DN (k) = P(k, 7) -ee 大 一 0,1…， 


ELAz] = Xr， var(N;) = XT， 


。 服从 参数 为 和 的 指数 分 布 . 这 是 首次 到 达 的 时 间 了 的 分 布 . 它 的 分 布 列 ， 
期 望 和 方差 是 


fr(lt) = Xe *™, 


66666666 
有 三 


0 -一 一 时 间 
到 达 


| 

| | | 

图 6.6 ” 伯 努 利 过 程 可 以 看 成 泊 松 过 程 的 离散 化 .我们 将 区 间 分 为 长 度 6 的 小 区 间 , 与 每 个 
小 区 间 对 应 一 个 伯 努 利 试验 , 其 参数 为 p = A5. 上 表 汇 总 了 两 个 过 程 的 对 应 关系 


例 6.8 ”假设 收 电子 邮件 是 一 个 强度 为 每 小 时 入 = 0.2 封 的 泊 松 过 程 , 每 隔 1 小 
时 , 检查 一 次 电子 邮件 . 那么 接 到 0 封 和 1 封 新 邮件 的 概率 是 多 少 ? 
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可 以 使 用 泊 松 分 布 e-*"(AT)*/k! 来 计算 , 这 里 =1 KE=0 或 上 =1: 
P(0,1) = er02 = 0.819， PU,1) = 0.2e-02 = 0.164. 


又 假设 一 天 都 没有 检查 电子 邮件 . 那么 一 封 电子 邮件 都 没有 收 到 的 概率 是 多 
少 ? 我 们 再 次 使 用 泊 松 分 布 来 计算 , 即 


P(0, 24) = e0224 一 0.008 3. 


另 一 方面 , 我 们 也 可 以 这 么 想 . 在 一 天 24 个 小 时 里 都 没有 收 到 信息 , 那么 连续 24 
个 工 个 小 时 都 没有 收 到 信息 . 而 后 者 24 个 事件 都 是 相互 独立 的 , 而 且 每 个 事件 发 
生 的 概率 是 P(0,1) = e-02, 所 以 ， 


P(0,24) = (P(0,1))* = (e—°"2)24 = 0.008 3. 


这 个 结果 与 上 面 的 一 样 . 口 
例 6.9 (独立 泊 松 随机 变量 之 和 仍 是 泊 松 ) ”顾客 去 超市 购物 可 以 用 泊 松 过 程 来 刻 
画 , 强度 为 每 分 钟 和 = 10 个 顾客 . 记 M 为 9:00 到 9:10 来 超市 的 顾客 总 数 . N 为 
9:30 到 9:35 来 超市 的 顾客 总 数 . 那么 N + M 的 分 布 是 什么 ? 

注意 ，M 是 泊 松 的 , 参数 是 /人 = 10 x 10 = 100, N 也 是 泊 松 的 , 参数 是 vy = 
10 x 5 二 50. 进一步 , M 和 N 是 独立 的 . 在 4.4 节 里 , 运用 算 母 函数 的 方法 已 经 证 
得 M 十 N 也 是 泊 松 分 布 , 参数 是 jy 十 v = 150 (也 可 参见 第 4 章 习 题 11). 现在 我 们 
用 直观 的 方法 来 推导 这 个 公式 . 

记 六 是 在 时 间 9:10 到 9:15 来 超市 的 顾客 总 数 , 则 太 与 NN 一 样 是 泊 松 的 ( 参 
数 为 50), 而 且 六 与 NN 独立 . 所 以 M + N 的 分 布 与 M 二 太 的 分 布 是 一 样 的 . 但 
是 M+N 是 长 度 为 15 分 钟 的 时 间 区 间 内 来 超市 的 顾客 总 数 , 所 以 仍 是 泊 松 分 布 ， 
参数 是 10 x 15 = 150. 

这 个 例子 的 结论 是 普遍 的 . 对 于 一 个 泊 松 过 程 来 说 , 设 X 为 若干 个 不 相 重合 
的 区 间 内 的 到 达 总 数 , 则 随机 事件 X = 的 概率 为 P(k,7), 其 中 为 这 些 不 相交 
的 区 间 长 度 的 总 和 . 上 述 结论 中 , 不 相交 的 区 间 的 个 数 是 不 受 限制 的 , 只 要 他 们 的 
总 长 度 为 > (在 本 例 中 , 我 们 处 理 的 是 时 间 段 [9:00, 9:10] 和 [9:30, 9:35], 总 时 间 是 15 
分 钟 ). 口 


6.2.2 ”独立 性 和 无 记忆 性 


泊 松 过 程 有 许多 性 质 与 伯 努 利 过 程 是 类 似 的 , 比如 不 相交 时 间 区 间 内 的 到 达 是 
相互 独立 的 , 相 邻 时 间 分 布 的 无 记忆 性 . 泊 松 过 程 也 可 视 为 伯 努 利 过 程 的 极限 的 情 
况 , 所 以 泊 松 过 程 继 承 了 伯 努 利 过 程 的 许多 性 质 , 也 是 不 奇怪 的 . 
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泊 松 过 程 的 独立 性 质 
。 对 任意 给 定 的 时 间 t+ > 0, 时 间 t 之 后 的 过 程 也 是 泊 松 过 程 , 而 且 与 时 间 t 
之 前 (包括 时 间 办 的 历史 过 程 相互 独立 . 


。 对 任意 给 定 的 时 间 t, 令 工 是 时 间 t 之 后 首次 到 达 的 时 间 , 则 随机 变量 
全 一 t 服从 参数 为 和 的 指数 分 布 , 且 与 时 间 七 之 前 (包括 时 间 t) 的 历史 过 
程 相互 独立 . 


上 表 中 的 第 一 个 性 质 成 立 , 是 因为 从 时 间 t 开始 的 过 程 满足 泊 松 过 程 定义 的 性 
质 . 未 来 与 过 去 的 独立 性 直接 来 源 于 泊 松 过 程 定义 中 的 独立 性 假设 . 最 后 ,了 一 t 具 
有 相同 的 指数 分 布 , 这 是 因为 


P(T 了 一 +> s) =P( 在 时 间 [t,t 十 s] 没有 到 达 ) = P(0,s) = ee. 


这 就 是 无 记忆 性 , 这 个 性 质 与 伯 努 利 过 程 的 无 记忆 性 是 类 似 的 . 下 面 两 个 例子 运用 
了 这 个 性 质 . 
例 6.10 ”你 和 朋友 一 起 去 网 球场 , 需要 一 直 等 到 正在 打球 的 人 打 完 为 止 . 假设 (有 
些 不 太 现实 ) 他 们 打球 的 时 间 服 从 指数 分 布 . 则 不 管 他 们 什么 时 候 开始 打球 的 , 你 
们 等 待 的 时 间 (等 价 地 , 他 们 打球 的 剩余 时 间 ) 也 是 相同 的 指数 分 布 . 口 
例 6.11 进入 银行 , 你 会 发 现 有 3 个 营业 员 在 服务 客户 , 而 且 没有 其 他 人 在 排队 
等 待 . 假设 你 的 服务 时 间 和 正在 服务 的 客户 的 服务 时 间 都 是 具有 相同 参数 的 指数 分 
布 , 且 相互 独立 . 那么 你 是 最 后 一 个 顾客 离开 银行 的 概率 是 多 少 ? 

答案 是 1/3. 从 你 开始 接受 一 名 营业 员 服 务 的 那 一 刻 算 起 , 另 两 名 正在 接受 服 
务 的 顾客 还 需要 的 服务 时 间 , 与 你 所 需要 的 服务 时 间 具 有 相同 的 分 布 . 另外 两 位 顾 
客 , 虽然 比 你 早 接受 服务 , 但 由 于 泊 松 过 程 的 无 记忆 性 , 他 们 与 你 处 于 同一 起 跑 线 
上 , 不 算 以 前 的 服务 时 间 , 三 人 所 需 的 服务 时 间 的 分 布 是 相同 的 . 所 以 你 和 其 他 2 
人 具有 相同 的 概率 最 后 离开 银行 . 口 


6.2.3 ” 相 邻 到 达 时 间 
设 有 一 个 从 时 刻 0 开始 的 泊 松 过 程 . 与 这 个 过 程 相关 的 重要 的 随机 变量 是 第 


次 成 功 (或 到 达 ) 的 时 间 , 记 为 丈 . 与 7 密切 相关 的 变量 是 第 次 相 邻 到 达 的 
时 间 , 记 为 Tk. 这 些 变量 满足 如 下 关系 


T=Y, T= k=2,3,... 


? 


Tk 的 含义 是 在 一 1 次 成 功 之 后 到 下 次 成 功 所 需 的 时 间 . 由 上 面 的 关系 , 可 以 推导 
得 到 


Yr =i+… + 1. 
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我 们 已 经 得 到 首次 到 达 的 时 间 五 服从 参数 为 和 的 指数 分 布 . 第 一 次 在 时 刻 工 
成 功 之 后 , 未 来 是 一 个 新 的 泊 松 过 程 ? 因 此 , 下 次 到 达 所 需 的 时 间 ZT 与 二 有 相同 
的 分 布 . 进一步 , 过 去 的 过 程 (直到 , 且 包 括 时 间 也) 与 未 来 的 试验 (从 时 刻 五 以 后 
开始 ) 是 独立 的 . 既然 BE 仅仅 由 未 来 决定 , 所 以 D 与 下 独立 . 类 似 继续 下 去 , 我 
们 可 以 得 到 随机 变量 序列 五 ,她 , 瑟 ，… 是 相互 独立 的 , 而 且 具 有 相同 的 指数 分 布 . 

这 个 重要 的 结论 , 可 以 给 泊 松 过 程 一 个 等 价 的 另 一 种 描述 方法 . 


泊 松 过 程 另 一 种 描述 
(1) 开始 于 一 串 相互 独立 并 且 公共 参数 为 和 的 指数 随机 变量 序列 T,T2,…， 
它们 是 相 邻 到 达 时 间 . 


(2) 过 程 的 到 达 的 时 间 为 厂 , 五 十 2 五 十 玖 十 区 ,等 等 . 这 样 形成 的 随机 过 
程 就 是 泊 松 过 程 . 


6.2.4 ”第 上 次 到 达 的 时间 
第 上 成功 的 时 间 六 等 于 个 独立 同 分 布 且 服从 指数 分 布 的 随机 变量 之 和 , 即 

了 二 十 … 十 T%. 这 样 我 们 就 可 以 利用 下 表 计 算 球 的 期 望 、 方差 、 分布 列 . 
第 上 次 到 达 的 时 间 的 性 质 

。 第 上 次 到 达 的 时 间 等 于 前 个 相 邻 到 达 时 间 之 和 

Y= 二 +… 二 + 了 7%， 
而 且 了 ,… ,7% 独立 同 分 布 , 服从 参数 为 和 的 指数 分 布 . 
。 了 蒜 的 期 望 、 方 差 为 


E[Yk] = EIN1] 十 :… 十 也 [2] = >， 


var(Yx) 一 var(71) 十 … 十 var(T%) 二 大 


和 2 
。 Yi 的 分 布 密度 是 


和 KW 一 le 一 Ag 


fy (y) = Ra Y > 0， 


这 就 是 有 名 的 阶 数 为 的 埃 尔 朗 分 布 。. 


@ 以 前 我 们 说 的 随机 过 程 “ 重 新 开始 ”是 指 从 任意 固定 的 时 刻 t 开始 的 随机 过 程 . 现在 的 “重新 开始 ” 
结论 比较 强 , 这 是 因为 开始 时 刻 五 是 随机 变量 . 但 是 这 个 结论 还 是 很 直观 的 . 可 以 用 类 似 例 6.3 的 
证 明 方法 证 明 这 个 重新 开始 的 过 程 还 是 一 个 泊 松 过 程 , 即 对 Zi 可 能 的 取 值 取 条 件 的 方法 , 来 证 明 现在 
的 结论 . 

四 也 称 例 玛 分 布 . 一 一 译 者 注 
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下 面 我 们 来 证 明 丈 的 分 布 密度 公式 . 对 非常 小 的 6, 乘积 As.(y) 可 以 近似 看 
成 在 时 间 y 与 y+6 之 间 第 大 个 到 达 的 概率 .? 当 5 非常 小 时 , 在 区 间 [y,y + 引 到 达 
的 次 数 超过 1 次 的 概率 是 可 以 忽略 的 . 在 y 与 y+5 之 间 第 k 次 到 达 发 生 当 且 仅 
当下 面 两 个 事件 同时 发 生 . 

(a) 事件 4: 在 时 间 段 by,y + 引 到 达 了 一 次 ; 

(b) 事件 B: 在 时 间 y 之 前 恰好 发 生 了 一 1 次 . 

这 两 个 事件 发 生 的 概率 分 别 是 


Ar-1lyk-1le—Xy 


事件 4 与 B 是 相互 独立 的 , 所 以 
MA-lyk -le—Xy 


6fy(y TP(y < y+ TP(ANB) = P(AP(B) SOS Mk 


所 以 Myk-le—\y 
fy (y) = (gk—- Dr 


例 6.12 ”你 拨打 国税 局 的 热线 电话 后 , 被 告知 , 除 正在 接受 服务 的 人 外 , 你 前 面 还 
有 55 位 等 待 服务 . 呼叫 者 离开 所 需 时 间 是 泊 松 过 程 , 强度 和 是 每 分 钟 2 人 . 那么 
平均 而 言 , 直到 接受 服务 你 需要 等 待 多 长 时 间 ? 你 的 等 待 时 间 超 过 30 分 钟 的 概率 
是 多 少 ? 

利用 无 记忆 性 , 正在 接受 服务 的 人 还 需 服务 的 时 间 服 从 参数 为 = 2 的 指数 分 
布 . 所 以 你 前 面 55 人 的 服务 时 间 也 是 服从 参数 为 = 2 的 指数 分 布 . 而 且 所 有 这 
些 变量 都 是 独立 的 . 所 以 你 等 待 的 时 间 , 记 为 Y, 是 56 阶 的 埃 尔 朗 分 布 , 所 以 


之 0 


EIY] = 六 = 28. 


@ 下 面 介绍 的 推导 方法 不 使 用 近似 方法 论证 . 注意 到 对 任意 的 y > 0, 事件 fx 所 与 下 列 事件 相同 
{在 时 间 [0,y] 内 至 少 到 达 次 }. 
所 以 Yi. 的 分 布 是 


oo k—1l k—1 
Fy (y) =P(Y SW) = > PHD)=1- Phy)=1- > 
n= 二 k n=0 


n=0 


MW) "ey 

nl . 
YY 的 密度 函数 可 通过 对 上 述 表 达 式 对 gy 求 导 得 到 , 直接 求 导 就 可 以 得 到 Erlang 密度 函数 公式 
Aryk—le—\y 


fy (y) = Em (y) = RD 
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你 的 等 待 时 间 必 须 超过 30 分 钟 的 概率 是 


co 56，55 一 和 9 
Pr>30= 人 和 Aye 
30 


55! 


计算 上 述 概率 非常 麻烦 . 另 一 方面 , 既然 Y 是 一 串 独立 同 分 布 随机 变量 序列 之 和 ， 
我 们 可 以 使 用 中 心 极限 定理 和 正 态 分 布 表 来 近似 计算 . 口 


6.2.5 ” 泊 松 过 程 的 分 裂 与 合并 


类 似 于 伯 努 利 过 程 , 强度 为 和 的 泊 松 过 程 , 也 可 以 按 如 下 的 方法 进行 分 裂 : 每 
当 有 一 个 到 达 时 , 我 们 选择 保留 下 来 (概率 为 p), 或 者 抛弃 (概率 为 1 - 9), 而 不 管 
其 他 情况 , 在 伯 努 利 过 程 , 我 们 知道 分 裂 后 的 伯 努 利 过 程 仍 是 伯 努 利 的 .在 现在 的 
情况 下 , 泊 松 过 程 分 裂 出 来 的 过 程 仍 是 泊 松 的 , 只 是 强度 为 Xp. 

类 似 地 , 如 果 有 两 个 相互 独立 的 泊 松 过 程 (参数 分 别 是 和 A 和 和 2), 在 这 两 个 原 
始 的 过 程 中 , 随便 哪 一 个 到 达 , 就 认为 一 个 新 过 程 的 到 达 , 这 个 新 过 程 就 是 原来 过 
程 的 合并 过 程 . 可 以 证 明 这 个 合并 过 程 还 是 泊 松 的 , 强度 为 Xi + Xa. 合并 后 的 过 程 ， 
任何 一 个 到 达 状 态 以 和 1/(A1 + A2) 的 概率 来 自 于 第 一 个 泊 松 过 程 , 以 A2/ (A + 和 2) 
的 概率 来 自 于 第 二 个 泊 松 过 程 . 

我 们 举例 来 说 明 这 些 性 质 , 同时 提供 证 明 方 法 . 

例 6.13 ( 泊 松 过 程 的 分 裂 ) ”到 达 数 据 网 络 某 个 节点 的 信息 包 可 能 是 目的 地 信息 
包 (目的 地 信息 包 的 定义 是 : 这 个 信息 包 以 该 节点 为 目的 地 , 不 再 转发 到 其 他 节点 . 
到 达 的 信息 包 为 目的 地 信息 包 的 概率 为 p), 也 可 能 是 转发 的 信息 包 (这 种 事件 发 生 
的 概率 为 1 一 p), 这 样 的 信息 包 必 须 转 发 到 其 他 节点 . 信息 包 到 达 节 点 的 过 程 是 泊 
松 过 程 , 强度 为 和 , 而 且 到 达 信 息 包 的 类 别 与 其 他 到 达 信息 包 的 类 别 是 相互 独立 的 . 
如 前 所 述 , 接收 目的 地 信息 包 的 过 程 也 是 泊 松 的 , 强度 是 Xp. 下 面 对 此 进行 解释 . 

我 们 只 需 验 证 目的 地 信息 包 的 到 达 过 程 满足 泊 松 过 程 的 定义 . 因为 和 ,p 是 常 
数 , 不 随时 间 变 化 而 变化 .任何 时 间 长 度 为 r 的 区 间 内 的 到 达 次 数 的 分 布 与 这 个 
区 间 的 位 置 无 关 . 所 以 第 一 条 性 质 (时 间 同 质 性 ) 满足 . 进一步 , 无 论 到 达 的 信息 包 
是 否 为 目的 地 信息 包 , 在 不 相交 的 时 间 区 间 内 , 这 些 事件 都 是 彼此 独立 的 , 这 就 验 
证 了 泊 松 过 程 关于 独立 性 的 第 二 条 性 质 . 最 后 , 我 们 重点 研究 长 度 为 5 的 一 个 小 区 
间 , 目的 地 信息 包 到 达 的 概率 就 是 事件 ， 有 一 个 信息 包 进 入 节点 , 而且 这 个 信息 包 
就 是 目的 地 信息 包 的 概率 , 这 个 概率 近似 于 M5 .p. 另外 , 两 个 或 多 个 目的 地 信息 包 
到 达 节 点 的 概率 相对 于 5 而 言 , 是 忽略 不 计 的 , 这 就 验证 了 泊 松 过 程 关 于 小 区 间 内 
到 达 次 数 的 分 布 列 的 第 三 条 性 质 ， 所 以 我 们 得 出 目的 地 信息 包 到 达 过 程 也 是 泊 松 
过 程 . 特别 地 , 在 长 度 为 r 的 时 间 内 , 到 达 的 目的 地 信息 包 的 数目 服从 强度 为 pXr 
的 泊 松 分 布 . 由 对 称 性 , 转发 信息 包 的 到 达 过 程 也 是 泊 松 的 , 强度 是 (1 - p) 和 A， 有 点 
奇怪 的 是 , 从 原始 泊 松 过 程 分 裂 出 去 的 两 个 泊 松 过 程 居然 是 相互 独立 的 . 见 本 章 末 
习题 . 口 
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例 6.14 ( 泊 松 过 程 的 合并 ) ” 人们 去 邮局 寄 信 的 到 达 过 程 是 泊 松 过 程 , 强度 是 Xi， 
去 邮局 邮寄 包 训 的 到 达 过 程 也 是 泊 松 过 程 , 强度 是 Xo, 而 且 邮 信和 与 邮包 囊 是 独立 的 . 
这 样 , 人 们 进 邮局 办 事 ( 寄 信 或 邮寄 包 衷 ) 的 到 达 过 程 是 泊 松 的 , 强度 是 Xi + Xa. 下 
面 对 此 进行 解释 . 

首先 , 合并 后 的 过 程 显 然 满足 泊 松 过 程 的 时 间 同 质 性 (时 间 区 间 内 到 达 个 数 的 
分 布 列 只 与 区 间 的 长 度 有 关 , 与 区 间 的 起 始 时 刻 无 关 ), 进一步 , 原来 的 两 个 随机 过 
程 在 不 同 的 时 间 区 间 内 所 发 生 的 事件 是 相互 独立 的 , 所 以 合并 后 的 过 程 在 不 同 的 时 
间 区 间 内 所 发 生 的 事件 也 是 相互 独立 的 . 这 说 明 合 并 后 的 过 程 也 符合 泊 松 过 程 定 
义 中 的 独立 性 要 求 . 现在 考虑 6 长 的 小 区 间 , 在 下 面 的 推论 中 近似 号 “ss” 表 示 两 
边 相 差 一 个 与 5 相 比 可 忽略 的 项 . 我 们 有 


P( 合 并 后 过 程 在 小 区 间 内 无 到 达 ) ~ (1 一 和 6)(1 一 X26) 1 一 (AN1 十 和 2) 
P( 合 并 后 过 程 在 小 区 间 内 只 有 1 次 到 达 ) 之 和 16(1 一 和 26) 十 Mo6(1 一 和 16) 必 (和 1 十 和 2)6. 


由 上 式 看 出 , 合并 后 的 过 程 满足 泊 松 过 程 定 义 的 第 三 个 要 求 ， 并 且 其 强度 参数 为 
Al 十 入 2. 
假设 记录 了 一 个 人 进入 邮局 , 问 这 个 人 来 寄 信 的 概率 是 多 少 ? 首先 将 焦点 放 在 
某 时 刻 附 近 的 时 间 长 度 为 5 的 小 区 间 里 , 此 时 把 问题 化 为 一 个 条 件 概率 的 计算 问 
题 , 即 计算 
P(1 个 寄 信 的 人 进 了 邮局 | 有 个 人 进 了 邮局 ). 


使 用 条 件 概率 的 定义 , 忽略 超过 1 个 人 进 邮 局 那些 小 概率 值 , 得 到 


P(1 个 寄 信 的 人 进 了 有 邮局 ) 。 和 5 六 
P( 有 个 人 进 了 邮局 ) Oi 十 和 A2)6。 生 十 和 2 


由 泊 松 过 程 的 性 质 可 知 , 这 个 条 件 概 率 与 这 个 人 进入 邮局 的 时 刻 无 关 , 这 个 人 是 来 


“ 寄 信 ”的 概率 也 是 Xi/(Xi + 和 2). 现在 记 zx 为 事件 “第 大 个 进入 邮局 的 人 是 来 寄 
信 的 ”, 类 似 可 得 


和 1 
DU) = HT 
因为 不 同 的 人 , 到 达 的 时 间 也 不 一 样 . 所 以 , 对 泊 松 过 程 ， 人 
立 的 , 所 以 随机 事件 L1, L2,.… 是 独立 的 . 
例 6.15 (竞争 指数 ) ”两 个 灯泡 ?具有 独立 的 寿命 有 和 工 ， 它们 分 别 服从 参数 为 
Xa 和 和 的 指数 分 布 . 问 两 个 灯泡 首次 烧 坏 的 时 间 2 = min{T,T,} 的 分 布 是 什么 ? 


QD 如 果 把 两 个 灯泡 串联 起 来 ， 形 成 一 个 串联 系统 . 当 其 中 一 个 灯泡 寿 终 的 时 候 ， 系 统 就 寿 终 ， 系 统 的 寿 
命 就 是 本 例 中 的 首次 烧毁 的 灯泡 的 寿命 . 串联 系统 在 可 靠 性 统计 具有 重要 的 地 位 . 一 一 译 者 注 
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对 任意 的 z > 0, 有 
Fz(z) =P(min{T,, Ty} < z) 
=1—P(min{T,, Ts} > 2z) 
=1—P(T, > 2,T, > 2) 
=1—P(T, > z)P(T, > 2) 
1 6-Nze-Mz 


=1—e 0th)z. 


这 就 是 参数 为 和 ,十 入 的 指数 分 布 的 分 布 函数 . 所 以 两 个 独立 的 参数 分 别 为 X。 
和 和 的 指数 分 布 随机 变量 之 较 小 的 随机 变量 服从 参数 为 和 。 + 和 的 指数 分 布 . 

可 以 更 直观 地 解释 这 个 事实 . 假设 T, 和 TT 分 别 是 强度 为 X 和 Xe 的 泊 松 过 程 
首次 到 达 的 时 间 . 如 果 我 们 将 两 个 过 程 合 并 , 那么 首次 到 达 的 时 间 是 min{T,, Tb}. 
我 们 已 经 知道 合并 后 的 过 程 是 强度 为 XeHxs 的 泊 松 过 程 , 所 以 首次 到 达 时 间 min{T， 
TZ} 是 指数 分 布 , 参数 为 和 十 入 口 

上 例 的 结论 可 以 推广 到 更 多 过 程 的 情形 . 即 n 个 独立 的 泊 松 过 程 , 强度 分 别 为 
和 1,… ,An, 则 合并 后 的 过 程 仍然 是 泊 松 的 , 强度 是 Xi 十 … 十 入 . 

例 6.16 (竞争 指数 的 进一步 讨论 ) ”点 亮 三 蔓 灯 泡 , 其 寿命 分 布 都 是 参数 为 和 的 指 
数 分 布 , 而 且 相互 独立 . 那么 直到 最 后 一 过 灯泡 烧 坏 的 时 间 的 期 望 值 是 多 少 ? 

我 们 已 经 讲 过 , 每 蔓 灯 泡 烧 坏 的 时 间 可 视 为 独立 泊 松 过 程 的 首次 到 达 时 间 . 开 
始 , 我 们 有 三 慢 灯 泡 , 所 以 合并 后 的 过 程 是 泊 松 过 程 , 强度 是 3X、 所 以 第 一 次 烧 坏 
的 时 间 五 服从 指数 分 布 , 参数 是 3, 均值 是 1/3X. 一 旦 有 一 慢 灯 泡 烧 坏 了 , 由 指 
数 分 布 的 无 记忆 性 , 剩 下 的 两 个 灯泡 的 寿命 时 间 仍 是 指数 分 布 , 而 且 独 立 , 重新 开 
始 . 所 以 我 们 有 两 个 泊 松 过 程 . 剩 下 的 两 个 过 程 合 并 后 仍 是 泊 松 过 程 , 强度 是 2 入 . 
故 首次 烧 坏 的 时 间 T2 服从 指数 分 布 , 参数 是 2 和 , 均值 是 1/2A. 最 后 , 在 第 二 荔 灯 
泡 烧 坏 之 后 , 只 剩 下 一 功 灯 泡 . 再 次 运用 无 记忆 性 , 最 后 一 六 灯 泡 烧 坏 的 时 间 工 是 
指数 分 布 , 参数 是 和 , 均值 是 1/ 和 . 故 整个 时 间 的 期 望 值 是 

E[ + Ts + Ts]= 去 十 去 十 

注意 , 因为 无 记忆 性 , 随机 变量 元 ,T,T 是 独立 的 . 这 样 , 人 们 也 可 以 计算 总 

时 间 的 方差 


var(Ti1 十 至 十 下) = var(T1) + var(T2) + var(Ts) 
6.2.6 ” 伯 努 利 过 程 和 泊 松 过 程 , 随机 变量 之 和 


利用 伯 努 利和 泊 松 过 程 的 分 裂 和 合并 过 程 的 性 质 , 可 以 既 巧 妙 又 直观 地 得 到 独 
立 随机 变量 之 和 的 许多 有 趣 的 性 质 ， 当 然 , 你 也 可 以 直接 按 定义 推导 出 有 关 分 布 ， 
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或 者 利用 和 矩 母 函数 进行 分 布 推导 . 但 是 这 些 方法 都 不 是 很 直观 . 我 们 将 这 些 性 质 归 
纳 如 下 表 . 


随机 数 个 独立 随机 变量 和 的 性 质 
设 NN, Xi ,Xn 是 独立 随机 变量 , 其 中 N 取 非 负 整 数 . 当 N > 0 时 , 定义 
了 =i 十 … 十 XN, 当 和 N= 一 0 时 , 定义 Y=0. 
。 如 果 Xi 的 分 布 是 参数 为 p 的 伯 努 利 分 布 ，N 的 分 布 是 参数 为 m 和 的 
二 项 分 布 , 则 Y 的 分 布 是 参数 为 m 和 pq 的 二 项 分 布 . 


。 如 果 XX 的 分 布 是 参数 为 p 的 伯 努 利 分 布 ,N 的 分 布 是 参数 为 和 的 泊 松 
分 布 , 则 Y 的 分 布 是 参数 为 Xp 的 泊 松 分 布 . 

。 如 果 Xs 的 分 布 是 参数 为 p 的 几何 分 布 , N 的 分 布 是 参数 为 9 的 几何 分 
布 , 则 Y 的 分 布 是 参数 为 pg 的 几何 分 布 . 

。 如 果 Xi 的 分 布 是 参数 为 和 的 指数 分 布 , N 的 分 布 是 参数 为 q 的 几何 分 
布 , 则 了 的 分 布 是 参数 为 Ag 的 指数 分 布 . 


前 两 个 性 质 在 习题 22 中 证 明 , 第 三 个 性 质 在 习题 6 中 证 明 , 最 后 一 个 性 质 在 
习题 23 中 证 明 . 最 后 三 个 性 质 也 在 第 4 章 中 得 到 证 明 , 在 那里 是 使 用 矩 母 函数 的 
方法 来 证 的 (参见 4.4 节 和 第 4 章 的 最 后 一 个 习题 ), 此 外 , 在 习题 24 中 给 出 了 另 
一 个 有 趣 的 性 质 , 即 记 Ns 是 在 长 度 t 的 时 间 内 强度 和 的 泊 松 过 程 到 达 的 总 数目 ， 
了 为 时 间 长 度 , 服从 参数 为 v 的 指数 分 布 , 且 与 泊 松 过 程 独立 , 则 Nz +1 的 分 布 是 
几何 分 布 , 参数 为 z/( 入 十 切 . 

下 面 我 们 讨论 一 个 更 深 的 相关 性 质 . 一 个 非常 大 数目 (不必 是 泊 松 ) 多 个 的 独 
立 到 达 过 程 的 合并 , 是 否 可 以 用 强度 为 各 自强 度 之 和 的 泊 松 过 程 来 近似 呢 ? 每 个 过 
程 的 强度 相对 总 过 程 而 言 是 非常 小 的 (所 以 它们 之 间 没 有 一 个 过 程 对 总 过 程 的 概 
率 特征 施加 影响 ), 而 且 它 们 必须 满足 一 些 数学 上 的 假设 .更 深 的 讨论 超出 本 书 的 
范围 . 但 是 注意 , 在 实际 中 , 的 确 需 要 对 大 量 类 似 泊 松 的 过 程 的 大 样本 性 质 进行 分 
析 . 比如 , 城市 里 的 电话 通信 流量 就 是 由 许多 分 支 的 小 的 过 程 合 并 而 成 , 每 个 分 支 
的 小 过 程 刻画 了 当地 居民 打 电 话 的 性 质 . 这 些小 的 过 程 不 一 定 是 泊 松 的 .比如 , 有 
些 人 喜欢 一 批 人 一 起 打 电 话 (小 型 电话 会 议 ), 同时 一 个 人 在 打 电话 的 时 候 是 无 法 
接听 第 二 个 电话 的 . 但 是 , 将 许多 小 的 过 程 合并 以 后 可 以 使 用 泊 松 过 程 来 刻画 ， 相 
同 的 原因 , 城市 里 汽车 事故 的 过 程 、 商 店 里 顾客 的 到 达 过 程 、 放 射 性 物质 的 粒子 发 
射 过 程 等 , 都 可 以 使 用 泊 松 过 程 . 

6.2.7 ”随机 插入 的 悖 论 


泊 松 过 程 的 到 达 时 间 序列 将 时 间 轴 分 割 成 一 串 相 邻 的 时 间 间 隔 序 列 , 每 个 时 间 
段 开始 于 一 个 到 达 , 结束 于 下 一 个 到 达 . 已 经 证 得 每 个 相 邻 时 间 段 的 长 度 ( 称 为 相 
邻 到 达 时 间 ) 是 相互 独立 的 、 参 数 为 和 的 指数 分 布 的 随机 变量 , 其 中 和 是 泊 松 过 程 
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的 强度 . 更 精确 地 说 , 对 每 个 k, 第 个 相 邻 到 达 时 间 服 从 指数 分 布 . 在 这 个 小 节 里 ， 
我 们 从 另 一 个 角度 来 看 这 些 相 邻 到 达 时 间 . 

固定 一 个 时 间 点 #*, 现在 来 看 包含 时 间 点 共 , 长 度 为 工 的 相 邻 时 间 段 . 现在 看 
一 看 这 个 问题 的 实际 背景 , 比如 有 一 个 人 , 在 一 个 任意 的 时 间 点 #*, 到 达 公共 汽车 
站 , 然后 记录 前 次 汽车 到 达 与 下 一 次 到 达 的 时 间 间 隔 . 通常 称 这 个 人 的 到 达 为 “ 随 
机 插入 ”, 然而 , 这 个 词汇 容易 引起 误导 , t* 只 是 一 个 特定 的 时 间 , 不 是 随机 变量 . 

假设 #* 比 泊 松 过 程 的 起 始 时 间 大 得 多 , 所 以 可 以 明确 地 知道 , 在 时 间 #* 之 前 
有 到 达 . 为 避免 时 刻 # 所 引发 的 这 种 担忧 , 我 们 假设 泊 松 过 程 的 起 始点 为 -co, 所 
以 可 以 确信 在 时 间 # 之 前 有 到 达 , 从 而 荆 有 定义 . 人 们 会 错误 地 认为 工 只 是 一 个 
“典型 ”的 相 邻 时 间 段 的 长 度 , 因此 也 是 指数 分 布 的 , 但 是 这 是 错误 的 . 事实 上 , 我 
们 将 证 明 工 服从 阶 数 为 2 的 埃 尔 朗 分 布 . 

这 就 是 有 名 的 随机 播 入 的 影响 或 者 随机 插入 悖 论 , 可 以 使 用 图 6.7 来 解释 . 假 
设 [U,V] 是 含 时 刻 # 的 相 邻 时 间 段 , 则 L = VU. 特别 地 , 7 是 ## 之 前 的 最 后 
一 次 到 达 时 间 , V 是 ##z 之 后 的 首次 到 达 时 间 . 将 工分 成 两 部 分 


L=( UU)+V- tt), 


其 中 t* 一 U 是 已 经 过 去 的 时 间 , V 一 女 是 剩 下 的 时 间 . 注意 , t* -U 取决 于 过 程 的 
历史 ( # 之 前 ), 而 VV 一 不 取决 于 过 程 的 未 来 ( 妇 之 后 ). 由 泊 松 过 程 的 独立 性 , 随 
机 变量 V+ 与 -U 是 独立 的 . 由 泊 松 过 程 的 无 记忆 性 , 泊 松 过 程 从 时 刻 #* 从 
新 开始 , 所 以 V 一 不 也 是 参数 为 和 的 指数 分 布 . 当然 随机 变量 t+ - ZX 也 是 指数 的 ， 
参数 为 和 得 到 这 个 结论 的 最 简单 方法 就 是 : 如 果 泊 松 过 程 倒 着 运行 , 仍 是 泊 松 过 
程 . 这 是 因为 泊 松 过 程 的 定义 中 时 间 不 管 是 顺 着 的 还 是 倒 着 的 , 没有 什么 区 别 . 下 
面 的 公式 是 关于 + 一 U 的 分 布 之 结论 的 严格 证 明 


P(t* -U > Zz)=P( 在 时 间 段 [#* 一 xz,t#*] 内 没有 到 达 ) = P(0,x)=e*， xz>0. 


于 是 我 们 就 证 明了 工 是 两 个 参数 为 和 的 独立 指数 分 布 随机 变量 之 和 , 即 是 阶 数 为 
2 的 埃 尔 朗 分 布 , 均值 是 2/ 入 . 


流逝 的 时 间 选 定 的 时 刻 剩余 的 时 间 
VF 


图 6.7 随机 插入 影响 示意 图 ， 对 于 固定 时 间 点 t*, 对 应 的 相 邻 时 间 段 [U,V] 的 组 成 : 流逝 
时 间 #* 一 U 与 剩余 时 间 V 一 女 . 这 两 个 时 间 变 量 是 独立 的 , 服从 参数 为 和 的 指数 
分 布 , 所 以 它们 之 和 服从 阶 数 为 2 的 埃 尔 朗 分 布 
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随机 插入 现象 通常 让 人 产生 误解 和 造成 失误 , 但 是 这 通常 能 够 通过 仔细 地 选择 
概率 模型 来 避免 . 关键 的 问题 是 , 一 个 观测 者 到 达 的 任意 时 刻 更 可 能 落 在 一 个 较 大 
而 不 是 较 小 的 时 间 间 隔 区 间 蜂 , 因此 , 在 这 种 情况 下 , 从 观测 者 观测 的 平均 长 度 将 
会 为 %, 比 指数 分 布 的 均值 1/A 要 大 . 类 似 的 情况 在 下 面 的 例子 中 也 会 发 生 . 
例 6.17 ( 非 泊 松 达到 过 程 中 的 随机 影响 ) ”公交 车 按照 一 定 的 规定 分 别 于 整 点 和 
整 点 后 5 分 钟 到 达 车 站 , 这 样 到 达 间隔 时 间 在 5 分 钟 和 55 分 钟 交替 , 平均 到 达 间 
隔 时 间 是 30 分 钟 . 一 个 人 在 某 随机 时 刻 到 达 公 交 车 站 . 我 们 说 “随机 ”是 指 在 某 特 
定 小 时 内 均匀 分 布 . 这 样 一 个 人 落 在 长 度 为 5 的 间隔 区 间 的 概率 为 十 , 落 在 长 度 为 
55 的 间隔 区 间 的 概率 为 其 , 则 到 达 间 隔 时 间 的 期 望 值 是 
1 
12 
这 比 平均 到 达 间 隔 时 间 30 分 钟 要 大 得 多 . 口 

如 上 例 所 示 , 随机 插入 是 一 个 引起 更 大 的 相 邻 到 达 时 间 间 隔 的 微妙 现象 , 已 在 
非 泊 松 过 程 的 上 文中 被 很 好 地 说 明 . 更 一 般 地 说 , 当 不 同 的 计算 方法 给 出 了 相悖 的 
结论 时 , 往往 是 他 们 给 予 了 不 同 的 概率 机 制 . 比方 说 , 考虑 给 定 一 个 非 随机 的 , 观 
察 相 应 的 第 个 相 邻 到 达 时 间 的 试验 与 固定 时 间 t, 观察 第 K 个 相 邻 到 达 时 间 间 
隔 上 覆盖 t 的 试验 是 完全 不 同 的 , 其 中 天 可 视 为 随机 变量 . 

考虑 最 后 一 个 有 类 似 味道 的 例子 . 关于 城市 公交 车 使 用 情况 的 调查 , 一 种 方法 
是 随机 选择 一 些 公交 车 , 并 计算 所 选 车 辆 的 平均 乘 车 人 数 . 另 一 种 方法 是 随机 选择 
一 些 公交 乘客 , 观察 他 们 所 乘 的 公交 车 并 计算 出 这 些 车 上 的 平均 乘 车 人 数 , 这 两 种 
方法 得 到 的 估计 有 很 大 的 不 同 , 而 第 二 种 方法 的 估计 明显 偏 高 , 原因 是 当 使 用 第 二 
种 方法 时 , 我 们 更 容易 选择 到 具有 大 量 乘客 的 公交 车 , 而 不 是 几乎 空 着 的 车 . 
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6.3 ”小结 和 讨论 


在 本 章 中 , 我 们 介绍 和 分 析 了 两 种 无 记忆 到 达 过 程 . 伯 努 利 过 程 涉及 在 离散 时 
间 , 在 每 一 步 离 散 时 间 中 都 有 一 个 常 值 的 到 达 概 率 p， 泊 松 过 程 涉及 连续 时 间 , 对 
于 每 一 个 长 度 为 5 > 0 的 小 区 间 里 , 都 有 一 个 到 达 的 近似 概率 M6. 在 两 种 情况 中 ， 
不 相 邻 的 时 间 间 隔 中 到 达 的 次 数 是 独立 的 . 在 离散 时 间 间 隔 是 一 个 很 小 的 值 5 时 ， 
泊 松 过 程 可 以 看 作 是 伯 努 利 过 程 的 极限 情况 .这 个 事实 可 以 用 来 提炼 两 个 过 程 主 
要 性 质 的 相似 处 , 将 一 个 过 程 的 本 质 转移 到 另 一 个 过 程 中 . 

使 用 伯 努 利 过 程 和 泊 松 过 程 的 无 记忆 性 , 我 们 得 到 如 下 结论 : 

(a) 对 于 给 定 长 度 的 时 间 间 隔 , 到 达 次 数 的 分 布 列 是 二 项 分 布 或 泊 松 分 布 ; 

(b) 相 邻 到 达 时 间 分 别 服从 几何 分 布 和 指数 分 布 ; 

(c) 第 次 到 达 时 间 的 分 布 分 别 为 有 阶 帕 斯 卡 分 布 和 大 阶 埃 尔 朗 分 布 . 
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此 外 , 我 们 发 现 , 可 以 从 两 个 独立 的 伯 努 利 (或 泊 松 ) 过 程 开 始 , 将 它们 合并 后 
形成 一 个 新 的 伯 努 利 ( 泊 松 ) 过 程 . 相反 地 , 如 果 以 投掷 硬币 的 成 功 概率 p 接受 每 
一 次 到 达 (“ 分 裂 "), 则 接受 的 到 达 过 程 仍 是 伯 努 利 过 程 或 泊 松 过 程 , 只 是 平均 到 达 
率 或 强度 是 原始 到 达 率 的 p 倍 . 

我 们 最 后 考虑 了 随机 插入 现象 , 它 是 指 一 个 外 在 观测 者 在 某 特定 时 刻 到 达 并 测 
量 了 他 到 达 的 那个 到 达 时 间 间 隔 . 测量 的 区 间 的 概率 性 质 与 传统 的 “典型 ”的 到 达 
间隔 区 间 的 概率 性 质 不 同 , 原因 就 在 于 观测 者 的 到 达 时 间 更 可 能 会 落 入 大 一 些 的 到 
达 间 隔 时 间 区 间 中 . 这 种 现象 说 明 , 当 谈 及 “典型 ”区 间 时 , 我 们 必须 仔细 描述 区 间 
选择 的 机 制 , 不 同 的 机 制 会 导致 不 同 的 统计 性 质 . 


习 是 


6.1 节 伯 努 利 过 程 


1. 某 单位 有 两 辆 货车 , 一 辆 是 红色 的 , 另 一 辆 为 绿色 的 . 现在 一 共有 n 个 包 囊 需 装 到 车 上 . 
装 车 的 时 候 , 每 一 个 包 右 都 是 独立 地 放 到 红色 货车 (以 概率 p) 或 绿色 货车 (以 概率 1 -pp) 
上 的 , 设 六 为 红 车 上 包 囊 的 总 个 数 ，G 表示 绿 车 上 包 训 的 总 个 数 . 

(a) 确定 随机 变量 RR 的 分 布 列 , 期 望 和 方差 值 . 

(b) 求 第 一 次 装 车 的 时 候 将 一 个 包 衷 装 上 某 辆 车 , 一 直到 装 完 第 ”个 包 囊 以 后 , 这 辆 车 
上 还 只 有 一 个 包 于 的 概率 . 

(c) 计算 在 装 完 货 以 后 至 少 有 一 个 货车 只 有 一 个 包 训 的 概率 . 

(d) 计算 RR 一 G 的 期 望 和 方差 . 

(e) 假设 ”> 2, 在 前 两 个 包 训 都 装 在 红 货车 的 条 件 下 求 出 随机 变量 已 的 条 件 分 布 列 、 
期 望 和 方差 值 . 

2. 大 卫 在 每 次 小 测验 中 不 及 格 的 概率 为 1/4, 并 且 各 次 小 测验 的 结果 是 相互 独立 . 

(a) 大 卫 在 6 次 小 测验 中 恰好 不 及 格 2 次 的 概率 . 

(b) 计算 大 卫 在 不 及 格 3 次 之 前 通过 的 平均 测验 数 . 

(c) 计算 大 卫 恰 好 在 第 8 次 和 第 9 次 测验 时 发 生 第 2 次 和 第 3 次 不 及 格 的 概率 . 

(d) 计算 大 卫 在 连续 2 次 通过 测验 之 前 连续 2 次 不 及 格 的 概率 . 

3. 计算 机 系统 执行 两 个 用 户 提交 的 任务 ,时间 被 划分 为 几 部 分 , 每 一 部 分 以 pr = 1/6 的 概 
率 空 闲 , 以 ps = 5/6 的 概率 忙碌 ， 在 忙碌 时 间 , 来 自用 户 1( 或 用 户 2) 的 任务 被 执行 的 
概率 分 别 为 pllas = 2/5(pals = 3/5), 我 们 假设 不 同时 间 段 的 事件 彼此 独立 . 

(a) 计算 在 第 4 个 时 间 段 第 一 个 执行 用 户 1 的 任务 概率 . 

(b) 在 前 10 个 时 间 段 中 有 5 个 空闲 的 条 件 下 , 计算 第 6 个 空闲 时 间 段 为 第 12 个 时 间 
段 的 概率 . 

(c) 计算 系统 在 执行 来 自用 户 1 第 5 个 任务 时 的 总 时 间 段 数 的 期 望 值 . 

(d) 计算 执行 来 自用 户 1 的 第 5 个 任务 时 , 计算 机 经 历 的 繁忙 时 间 段 的 期 望 数 ， 

(e) 计算 执行 来 自用 户 1 的 第 5 个 任务 时 , 计算 机 所 执行 的 用 户 2 的 任务 数 的 分 布 列 、 
均值 和 方差 . 
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4.” 考 虑 一 个 伯 努 利 过 程 , 每 次 试验 成 功 概率 为 p. 
(a) 将 第 ” 次 成 功 之 前 失败 的 次 数 (通常 称 作 负 二 项 分 布 随机 变量 ) 与 一 个 服从 帕斯卡 
分 布 的 随机 变量 联系 起 来 , 并 求 出 它 的 分 布 列 . 
(b) 求 出 第 7 次 成 功 之 前 失败 次 数 的 期 望 和 方差 . 
(c) 写 出 第 i 次 失败 发 生 在 第 ” 次 成 功 之 前 的 概率 的 表达 式 . 
解 (a) 设 Y 表示 第 ” 次 成 功 之 前 试验 的 次 数 , 它 是 + 阶 帕 斯 卡 分 布 随机 变量 , 再 设 
X 表示 第 ” 次 成 功 之 前 失败 的 次 数 , 所 以 有 X= 一 7, 因此 , px (k) = py (k 十 7)， 


并 且 
px(k) = (ra k= 0,1,... 


r 


(b) 使 用 上 一 部 分 的 记号 , 我 们 有 


EIX] = E[Y] r= r=. 


进一步 地 ， 
var(X) = var( 了 ) = wy. 


再 次 设 X 表示 第 7 次 成 功 之 前 失败 的 次 数 , 在 第 > 次 成 功 之 前 发 生 第 i 次 失败 当 
且 仅 当 X > i, 因此 , 其 概率 等 于 


盖 zxW- 过 Ha pp i=12.... 
1 


一 了 


(ce 


_— 


一 个 替代 的 公式 可 如 下 推导 而 得 . 考虑 前 + 十 i 一 1 次 试验 , 在 这 些 实验 中 失败 的 次 
数 至 少 为 i 当 且 仅 当 成 功 的 次 数 要 少 于 r. 但 是 , 这 也 等 价 于 在 第 7 次 成 功 之 前 发 
生 第 i 次 失败 , 这 样 , 想 要 的 概率 也 就 是 在 前 r 十 i 一 1 次 试验 中 , 成 功 的 次 数 少 于 


r 的 概率 为 
T(t sn 和 


5.” 伯 努 利 过 程 中 的 随机 插入 ， 你 的 表 弟 很 久 以 前 就 开始 在 玩 一 个 视频 游戏 , 假设 他 赢 每 一 

局 的 概率 是 p, 并 且 独 立 于 其 他 游戏 的 结果 . 午夜 时 , 你 进入 他 的 房间 并 且 发 现 他 输 掉 了 
当前 的 游戏 . 试 计算 他 最 近 一 次 赢 和 他 未 来 将 要 第 一 次 赢 之 间 输 的 次 数 的 分 布 列 . 
解 ” 设 t 表 示 当 你 进入 房间 时 所 玩 游戏 的 序号 , M 表示 他 赢 的 最 近 一 得 游戏 的 序号 ，N 
表示 即将 赢 的 游戏 序号 , 则 随机 变量 X = N 一 t 服从 参数 为 p 几何 分 布 . 由 于 游戏 的 对 
称 性 和 独立 性 , 随机 变量 Y = 上- M 也 同样 服从 参数 为 p 的 几何 分 布 , 在 他 最 近 一 次 赢 
和 未 来 将 要 第 一 次 赢 之 间 输 掉 游 戏 的 次 数 即 为 M 和 N 之 间 游 戏 个 数 , 上 述 次 数 工 为 


L=N—M— 1=X+Y-1. 


这 样 , 工 十 1 就 有 2 阶 帕斯卡 分 布 , 并 且 


Pr (7 Ppp k= 2,3,.…. 
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因此 ， 

pr =P(L+1=i+1l)=ip(l—p) !, i=1,2,.…: 
项 数 为 几何 随机 变量 的 独立 几何 随机 变量 之 和 . 设 Y = Xi 十 Xz 十 … 十 Xn, 其 中 随机 
变量 X; 服从 参数 为 p 的 几何 分 布 , 并 且 服从 参数 为 g 的 几何 分 布 . 假设 随机 变量 
NN, X1, X2,… 相互 独立 .在 不 利用 和 矩 母 函 数 的 前 提 下 证 明 , Y 服从 参数 为 pg 的 几何 分 
布 . 提示 . 利用 分 裂 的 伯 努 利 过 程 解释 题 中 所 涉及 的 随机 变量 . 
解 ”我 们 在 第 4 章 中 使 用 和 矩 母 函数 得 到 了 这 个 结论 , 但 是 我 们 在 这 里 要 进行 更 加 直观 的 
推导 . 我 们 分 别 将 随机 变量 Xi, N 作 如 下 解释 , 我 们 将 时 刻 Xi, Xi 十 X2,…， 视 作 参数 
为 p 的 伯 努 利 过 程 中 的 到 达 时 刻 , 每 一 个 到 达 以 概率 1 - 49 拒绝 , 以 概率 g 接受 . 我 们 将 
N 解释 为 第 一 次 接受 之 前 到 达 的 个 数 , 被 接受 的 到 达 过 程 是 通过 分 割 伯 努 利 过 程 而 获得 
的 , 因此 它 本 身 就 是 参数 为 pg 的 伯 努 利 过 程 . 注意 到 随机 变量 Y = Xi 十 Xa 十 .十 XN 
就 是 出 现 到 达 被 第 一 次 接受 的 时 间 , 因此 是 参数 为 pg 的 几何 分 布 . 
来 自 伯 努 利 过 程 的 均匀 分 布 随机 变量 的 比特 数 
设 Xi,X2,.… 是 取 值 于 {0,1} 的 二 值 随机 变量 序列 , 设 Y 表示 取 值 于 [0, 1] 的 连续 型 
随机 变量 , 我 们 假设 Y 为 具有 二 进 制 表示 为 0.XiX2Xs .… 的 实数 , 因此 将 X 和 了 联 
系 起 来 . 更 加 具体 的 表达 式 是 


Y= > 2 ROX. 
k=1 


(a) 假设 X; 来 自 参数 为 p = 1/2 的 伯 努 利 过 程 , 证 明 Y 服从 均匀 分 布 .提示 : 考虑 事 
件 (i 一 1)/2* <Y < i/2* 的 概率 , 其 中 i,k 都 是 正 整数 . 
(b) 假设 Y 是 均匀 分 布 的 , 证 明 X; 来 自 参数 为 p = 1/2 的 伯 努 利 过 程 . 


P(Y € [0,1/2) =POGa =0) = 3 =P(Y € [1/2,1]). 


进而 ， 

P(Y € [0,1/4]) =P(X1 =0, Xs =0) = 了 
类 似 的 , 我 们 考虑 形 如 [(i 一 1)/2*,i/2*] 的 区 间 , 其 中 i,k 都 是 正 整 数 并 且 i < 2*， 
要 想 Y 落 在 这 个 区 间 内 , 我 们 需要 Xi1, Xz,…… ,Xs 取 一 些 特殊 的 值 (Y 的 二 进 制 
展开 的 小 数 点 后 的 个 数 ), 这 样 


P((i— 1)/2* <Y < i/2*)= 元. 
同时 注意 到 : 对 于 [0, 1] 中 任 给 的 数 y, 我 们 有 P(Y = y) = 0, 这 是 因为 事件 
{Y = 引 只 有 当 无 穷 多 个 X; 取 特 殊 值 时 才 可 能 发 生 , 是 一 个 零 概 率 事件 . 因此 , Y 
的 分 布 函数 是 连续 型 的 并 且 满 足 


P(Y < i/2*) = 示 . 


既然 每 一 个 [0, 1] 中 的 y 都 可 以 用 形 如 i/2* 的 数 近似 逼近 , 对 于 任意 的 ye [0,1] 
我 们 有 P(Y < y) = y, 这 就 证 明了 Y 服从 均匀 分 布 . 


10. 


11. 


12. 


13. 
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(b) 正如 (a) 部 分 , 我 们 发 现 Xi Xa,… ,Xi 的 每 一 种 可 能 的 0-1 形式 都 对 应 着 Y 的 
一 个 形 如 [(i 一 1)/2*,i/2*] 的 特定 区 间 , 这 些 区 间 具 有 相同 的 长 度 , 由 于 Y 是 均匀 
分 布 进 而 具有 相同 的 概率 1/2*. 对 于 X1, XX2,.… ,Xi 来 说 , 这 个 特定 的 联合 分 布 
就 相当 于 参数 为 p = 1/2 伯 努 利 独立 随机 变量 


节 ” 泊 松 过 程 


.从 早上 8 点 到 9 点 这 段 繁忙 时 间 里 , 交通 事故 的 发 生 数 服从 一 个 强度 为 每 小 时 5 次 的 泊 


松 分 布 , 在 早上 9 点 到 11 点 之 间 , 交通 事故 的 发 生 数 服从 一 个 独立 的 频率 为 每 小 时 3 次 
的 泊 松 分 布 . 试 求 : 早上 8 点 到 11 点 之 间 发 生 事故 总 次 数 的 分 布 函数 . 


.一 个 体育 馆 有 5 个 网 球场 . 假设 每 对 打球 者 来 到 体育 馆 打 网 球 的 时 间 服 从 均值 为 40 分 


钟 的 指数 分 布 . 现 有 一 对 打球 者 来 到 体育 馆 , 发 现 所 有 的 场地 都 有 人 在 打球 , 且 前 面 有 大 
对 人 正在 等 待 , 问 他 们 等 待 的 期 望 时 间 是 多 少 ? 

一 个 渔夫 在 钓鱼 ,他 钓 到 鱼 的 规律 服从 强度 为 A = 0.6 条 /小 时 的 泊 松 过 程 . 钓鱼 时 间 至 
少 为 2 个 小 时 . 如 果 他 到 2 个 小 时 的 时 候 至 少 已 经 钓 到 一 条 鱼 , 就 退出 , 否则 , 他 将 一 直 
钓 下 去 直到 钓 到 一 条 为 止 

(a) 求 他 的 钓鱼 时 间 超 过 (不 含 ) 两 小 时 的 概率 . 

(b) 求 他 钓鱼 的 总 时 间 在 2~5 小 时 之 间 的 概率 . 

(c) 求 他 至 少 钓 到 两 条 鱼 的 概率 . 

(d) 求 他 钓鱼 条 数 的 期 望 . 

(e) 求 他 在 已 经 钓鱼 4 小 时 条 件 下 的 总 钓鱼 时 间 的 期 望 . 

顾客 离开 书店 服从 一 个 强度 为 人 /小 时 的 柏 松 过 程 , 每 一 个 顾客 买书 的 概率 为 p, 并 且 
独立 于 其 他 顾客 . 

(a) 求 直到 卖 出 第 一 本 书 所 用 时 间 的 分 布 . 

(b) 求 在 一 个 特定 的 小 时 里 , 没有 书 卖 出 的 概率 . 

(c) 求 在 一 个 特定 的 小 时 里 购书 的 顾客 数 的 期 望 . 

一 个 比萨 点 供应 n 种 不 同类 型 的 比萨 饼 , 而 且 在 给 定 的 时 间 区 间 内 , 有 K 名 顾客 , 其 中 
K 服从 均值 为 的 泊 松 分 布 . 每 名 顾客 只 买 一 个 比萨 饼 , 并 且 买 哪 种 类 型 的 比萨 饼 是 随 
机 的 , 而 且 与 其 他 顾客 的 选择 是 独立 的 . 求 卖 出 的 比萨 饼 种 类 数 的 平均 值 . 

发 报 机 4, B 分 别 以 频率 M4 和 As 的 泊 松 过 程 的 形式 向 一 个 单独 的 接收 器 独立 地 发 送 
消息 , 所 有 的 信息 都 很 简短 , 因此 我 们 可 以 假设 它们 只 占据 了 单个 的 时 间 点 . 每 个 信息 中 
的 所 有 字数 W 的 分 布 列 为 


2/6， 车 多 =1， 
3/6， 若 w= 2. 
1/6， 若 w=3， 
. 0， ”其 他 ， 
这 个 分 布 与 来 自 哪个 过 程 是 无 关 的 , 同时 各 个 信息 的 字数 W 之 间 也 是 相互 独立 的 . 


(a) 求 在 持续 时 间 为 t 的 间隔 里 总 共 收 到 9 条 信息 的 概率 . ’ 
(b) 设 N 表示 在 持续 时 间 为 t 的 间隔 里 接收 到 的 总 字数 , 求 N 的 期 望 . 


pw(w) = 
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(c) 求 从 时 刻 上 = 0 开始 , 直到 接收 到 8 条 来 自发 报 机 4 的 字数 为 3 的 信息 所 需 时 间 
的 密度 函数 . 

(d) 求 即将 接受 的 12 条 信息 中 恰好 有 8 条 来 自发 报 机 4 的 概率 . 

从 时 刻 上 = 0 开始 , 我 们 一 次 使 用 一 个 灯泡 来 为 房屋 照明 , 灯泡 在 坏 了 之 后 会 立刻 进行 更 

换 . 每 一 个 新 灯泡 将 会 从 4 类 型 和 B 类 型 中 等 概率 独立 地 选择 . 对 于 任何 类 型 的 任何 一 

个 特定 的 灯泡 , 其 寿命 X 都 是 随机 变量 , 独立 于 其 他 灯泡 的 寿命 , 且 有 着 如 下 密度 函数 : 


-”， 若 z>0 
对 类 型 4 灯泡， jx(zj= 4” ， ， 
x(Z) | 其 他 


3e ””， 若 z>0， 


对 类 型 B 灯泡 :fx(z) = | 
0, 其 他 . 

(a) 求 灯 泡 直 到 第 一 次 用 坏 时 间 的 期 望 . 

(b) 求 在 时 刻 之 前 没有 灯泡 用 坏 的 概率 . 

(c) 在 时 刻 t 之 前 没有 灯泡 用 坏 的 条 件 下 , 求 第 一 次 使 用 的 是 类 型 4 灯泡 的 概率 . 

(d) 求 直 到 第 一 个 灯泡 用 坏 时 间 的 方差 . 

(e) 求 第 12 个 灯泡 用 坏 恰 好 是 第 4 个 类 型 4 灯泡 用 坏 的 概率 . 

(f) 求 直到 第 12 个 灯泡 用 坏 , 总 共 恰 有 4 个 类 型 4 灯泡 用 坏 的 概率 . 

(g) 求 直到 第 12 个 灯泡 用 坏 的 所 用 时 间 的 密度 函数 或 者 与 之 相关 的 矩 母 函 数 . 

(h) 求 前 两 个 类 型 B 灯泡 的 总 照明 时 间 长 于 前 两 个 类 型 4 灯泡 的 总 寿命 的 概率 . 

(i) 假设 此 过 程 在 12 个 灯泡 用 坏 时 立刻 停止 , 试 求 整个 过 程 中 类 型 B 照明 时 间 总 长 度 

的 均值 和 方差 . 
0) 在 时 刻 t 之 前 没有 灯泡 用 坏 的 条 件 下 , 试 求 直到 第 一 个 灯泡 用 坏 所 需 时 间 的 期 望 . 
一 个 服务 站 处 理 两 种 类 型 的 任务 4 和 B( 多 个 任务 可 以 在 服务 站 同时 处 理 ), 两 类 型 任务 
的 到 达 分 别 服从 参数 为 每 分 钟 a = 3 和 Xs = 4 的 独立 泊 松 过 程 ，4 类 型 任务 在 服务 站 
停留 恰好 一 分 钟 , 而 每 一 个 B 类 任务 在 服务 站 停留 的 时 间 是 一 个 取 整 数值 的 随机 变量 ， 
其 分 布 为 几何 分 布 , 均值 为 2, 并 且 各 任务 的 执行 时 间 相互 独立 . 假定 服务 站 很 久 以 前 已 
开业 . 
(a) 对 于 一 个 给 定 的 3 分 钟 区 间 , 求 到 达 服 务 站 的 总 任务 数 的 均值 、 方差 和 分 布 列 . 
(b) 我 们 被 告知 在 一 个 10 分 钟 的 区 间 里 恰好 到 达 了 10 个 新 的 任务 , 试 求 其 中 恰好 有 3 
个 是 4 类 任务 的 概率 . 

(c) 己 知 在 0 时 刻 服 务 站 是 空闲 的 , 即 没有 任务 . 试 求 第 一 个 4 类 任务 到 达 之 前 B 类 
任务 到 达 个 数 的 分 布 列 . 

(d) 在 t=0 时 刻 恰 好 有 2 个 4 类 任务 在 服务 站 执行 , 求 出 在 0 时 刻 之 前 最 后 一 个 4 
类 任务 到 达 时 间 的 密度 函数 . 

(e) 在 时 刻 1, 恰好 有 一 个 B 类 任务 在 服务 站 , 试 求 直 到 这 个 B 类 任务 完成 所 需 时 间 的 
分 布 . 

每 天 早上 你 开车 出 门 时 , 更 愿意 在 几 个 路 口 直 接 掉头 行驶 而 不 愿 绕道 , 但 是 很 不 幸 的 是 ， 

在 你 居住 的 附近 地 区 掉头 是 违规 的 , 并 且 警 车 会 以 频率 为 的 泊 松 过 程 出 现 . 假设 你 次 
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18.”* 
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定 一 旦 在 7 个 时 间 单 元 里 路 上 没有 出 现 警 车 , 你 就 会 掉头 一 次 , 且 设 在 你 掉头 之 前 看 到 
了 N 辆 警车 . 

(a) 求 EIN]. 

(b) 给 定 N > n, 试 求 第 n 一 1 辆 警车 和 第 n 辆 警车 之 间 的 间隔 时 间 的 条 件 期 望 . 

(c) 试 求 在 掉头 之 前 等 待 时 间 的 期 望 . 提示 : 对 和 N 取 条 件 化 . 

圣迭戈 动物 园 的 一 只 袋 能 每 天 从 洞穴 走 到 食物 盘 进食 ， 再 走 回去 休息 ， 并且 一 直 重 复 下 
去 , 从 洞穴 走 到 食物 盘 的 时 间 ( 也 是 从 食物 盘 走 到 洞穴 的 时 间 ) 是 20 秒 , 进食 时 间 和 休 
息 时 间 都 服从 均值 为 30 秒 的 指数 分 布 . 这 只 和 钱 熊 在 来 回 进食 的 路 上 将 会 以 1/3 的 概率 
瞬间 站 立 一 会 儿 (时 间 很 短 可 以 忽略 ), 至 于 在 哪个 时 刻 站 立 则 是 完全 随机 的 . 袋 熊 的 行 
为 , 在 各 个 阶段 之 间 是 相互 独立 的 . 一 个 摄影 师 在 随机 时 刻 到 达 并 且 可 以 在 袋 能 站 立 的 
时 候 立 即 拍摄 照片 , 试 求 : 摄影 师 完成 拍摄 需要 等 待 的 时 间 长 度 的 期 望 . 
考虑 一 个 泊 松 过 程 ， 已 知 在 给 定 的 时 间 闻 隔 [0, 引 里 只 发 生 了 一 个 单个 到 达 , 试 证 : 到 达 
时 间 的 密度 函数 在 区 间 [0,t] 中 是 均匀 分 布 的 ， 

证 明 ”考虑 一 个 区 闻 [a, 9] C [0, 引 , 且 长 度 为 1 二 5 一 a, 设 工 表示 第 一 次 到 达 的 时 刻 , 4 
表示 在 fo, 中 单个 到 达 发 生 的 事件 , 我 们 有 


Pei 和 4) 
P(A) ， 


其 中 分 子 等 于 概率 P(1,1) * P(0,t 一 站, 即 泊 松 过 程 在 长 度 为 1 的 区 间 [c, 旭 里 恰好 发 生 
一 次 到 达 的 概率 乘 以 在 总 长 度 为 土 - ! 的 区 间 [0, a] LU 二 里 有 0 次 到 达 的 概率 . 这 样 ， 


PT e [a, 0]|A) = 


PQ, 1) 书 (0， t— 1) _ (Me Me™*(t-D l 


P(T € [a, 0]|A4) 二 Pl1,t) OD 一 下 


这 就 证 明了 7 是 服从 均匀 分 布 的 . 

(a) 设 XY 和 Xs 是 独立 的 参数 为 X; 和 Az 指数 随机 变量 , 求 {X1, Xa} 最 大 值 的 期 望 

(b) 设 Y 服从 参数 为 Xi 的 指数 分 布 ,2Z 服从 参数 为 Xa 的 2 阶 埃 尔 朗 分 布 , 假设 六. 
独立 , 求 {7, 2} 最 大 值 的 期 望 . 

解 ”一 种 直接 但 是 繁琐 的 方法 是 首先 算得 感 兴趣 随机 变量 的 密度 函数 ， 然后 计算 积分 求 

得 它 的 期 望 值 , 然而 更 简单 的 方法 则 可 以 通过 将 感 兴趣 的 随机 变量 根据 潜在 的 泊 松 过 程 

进行 解释 而 获得 . 

(a) 考虑 两 个 独立 的 强度 分 别 为 A 和 Xs 的 泊 松 过 程 , 我 们 将 Xi 和 X2 分 别 解释 为 
第 一 个 过 程 和 第 二 个 过 程 的 首次 到 达 时 间 , 设 了 = min{f Xi, X2} 表示 二 过 程 合并 
以 后 的 首次 到 达 时 间 , S = max{X1, X2} 一 全 表示 直到 两 过 程 都 出 现 到 达 的 增加 时 
间 . 因为 合并 的 过 程 是 强度 为 Xi + 和 2 的 泊 松 过 程 , 我 们 有 

1 


BT = Hs 


对 于 S 有 两 种 情况 需要 考虑 ; 
(i) 第 一 次 到 达 来 自 于 第 一 个 过 程 , 这 种 情况 出 现 的 概率 是 Xe 此 时 我 们 仍 需 
等 待 过 程 2 的 一 个 到 达 , 平均 来 说 需要 时 间 1/ 和 Xs. 
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(区 第 一 次 到 达 来 自 于 第 二 个 过 程 , 这 种 情况 出 现 的 概率 是 二 第, 此 时 我 们 仍 需 
等 待 过 程 1 的 一 个 到 达 , 平均 来 说 需要 时 间 1/A1. 综 上 , 我 们 得 到 


1 Al 1 X2 1 
Elmax{X1, X2} = ANA N+AM M2 MM A 

1 Al | 和 2 

= 二 二 大 一 一 一 (1 十 站 十 入 7 


(b) 考虑 两 个 独立 的 参数 分 别 为 1 和 Xa 的 泊 松 过 程 , 我 们 将 Y 和 2 分 别 解释 为 第 一 个 
过 程 的 首次 到 达 时 间 和 第 一 个 过 程 的 第 一 次 到 达 时 间 , 设 了 表示 二 过 程 合并 以 后 的 
首次 到 达 时 间 , 因为 合并 过 程 是 频率 为 A + 2 的 泊 松 过 程 , 我 们 有 E[T] = x 
这 里 有 两 种 情况 需要 考虑 
G) 在 时 刻 了 的 到 达 来 自 第 一 个 过 程 , 这 种 情况 出 现 的 概率 是 二 站 ,此 时 我 们 仍 
需 等 待 过 程 2 的 两 个 到 达 , 这 个 增加 时 间 服从 参数 为 X。 的 2 阶 埃 尔 朗 分 布 ， 
期 望 时 间 为 2/X2. 

(i) 在 时 刻 了 的 到 达 来 自 第 二 个 过 程 , 这 种 情况 出 现 的 概率 是 加, 此 时 我 们 仍 
需 等 待 的 增加 时 间 5 是 直到 两 个 过 程 各 出 现 一 个 到 达 所 需 的 时 间 , 这 是 两 个 
独立 指数 分 布 随机 变量 的 最 大 值 . 由 (a) 部 分 得 到 的 结果 , 我 们 有 


_ 1 和 1 和 2 
Els] = HF (1+ 交 + 和 ) 


综 上 , 我 们 得 到 


1 和 1 2 和 2 
Plmaxd{Y, 2 = 和 + 有 后 + 
其 中 E[S] 的 值 由 前 述 公 式 给 出 . 


20.” 设 丈 表示 参数 为 和 的 泊 松 过 程 中 第 & 个 到 达 的 时 间 , 试 证 明 , 对 所 有 的 y > 0 都 有 


ELS], 


> fr (9) = 入 
k=1 
解 ” 我 们 有 


-过 1 ( 取 m=k 一 1) 
oo 和 AmUme 一 Ag 

一 和 > ml 
m=0 

一 入 . 


最 后 一 个 等 式 成 立 是 因为 之 思 和 > 这 一 项 是 参数 为 Xy 的 泊 松 分 布 的 随机 变量 取 值 为 
m 的 概率 值 , 因此 其 和 必 为 1. 
一 个 更 为 直观 的 推导 过 程 如 下 . 设 6 是 一 个 很 小 的 正 数 , 考虑 如 下 事件 : 
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21.” 


22.” 


23. 


48 : 第 大 次 到 达 发 生 在 y 和 yy 十 5 之 间 , 这 个 事件 发 生 的 概率 为 P(4k) ~ fy (y)6; . 
4 : 一 次 到 达 发 生 在 y 和 y 十 5 之 间 , 这 个 事件 发 生 的 概率 为 P(A4) ~ X6; 

假设 5 被 取得 足够 小 以 至 于 在 一 个 长 度 为 5 的 区 间 里 发 生 两 次 或 更 多 次 到 达 的 概率 可 以 

被 忽略 . 通过 这 种 近似 , 事件 A1, 42,.…… 不 相交 , 它们 的 并 集 是 4, 因此 ， 


Pfr ly) :6 LY P(Ar) P(A) ~ 6, 
k=1 k=1 

所 需 结论 只 要 将 两 边 的 6 消去 即 可 . 

考虑 一 个 包含 两 个 参数 和 和 Xs 的 独立 泊 松 过 程 的 试验 . 设 Xi(k) 和 X2(k) 分 别 表 示 

第 一 个 过 程 和 第 二 个 过 程 中 第 次 到 达 的 时 间 , 证 明 ;: 


天 一 人 
解 ”考虑 合并 的 参数 为 Xi + 和 2 的 泊 松 过 程 , 每 一 次 当 合并 的 泊 松 过 程 中 出 现 一 个 到 达 
时 , 它 来 自 第 一 个 过 程 (成 功 ) 的 概率 为 xx , 来 自 第 二 个 过 程 (失败 ) 的 概率 为 站 
考虑 n +m 一 1 次 到 达 之 后 的 情况 , 来 自 过 程 1 的 到 达 至 少 有 n 次 当 且 仅 当 来 自 过 程 2 
的 到 达 数 少 于 m, 这 种 情况 的 发 生 当 且 仅 当 第 n 次 成 功 发 生 在 第 m 次 失败 之 前 . 这 样 ， 
事件 {Xi(n) < X2(m)} 就 相当 于 在 前 n + m 一 1 次 试验 中 至 少 成 功 n 次 这 个 事件 . 在 
一 个 具有 确定 试验 次 数 的 试验 中 , 成 功 次 数 的 分 布 列 是 二 项 分 布 列 , 我 们 有 


Poam < Rm) = (人 ') (2 (Ge 


k=n 

随机 数目 个 独立 伯 努 利 随机 变量 之 和 . 设 N, Xi, Xs,:…. 是 独立 随机 变量 ,，N 取 非 负 整 

数 , 随机 变量 X; 服从 参数 为 p 的 伯 努 利 分 布 . 当 N > 0 时 , 定义 Y= Xi 十 .十 XN， 

否则 定义 Y = 0. 证 明 : 

(a) 如 果 NN 是 参数 为 m 和 p 的 二 项 分 布 , 则 Y 是 参数 为 m 和 pg 的 二 项 分 布 ; 

(b) 如 果 N 是 参数 为 \ 的 泊 松 分 布 , 则 Y 是 参数 为 Xp 的 泊 松 分 布 . 

解 (a) 将 伯 努 利 过 程 X1, X2,:.. 进行 分 裂 , 以 概率 g 接收 , 以 概率 1 - g 放弃 . 分 裂 
后 产生 两 个 随机 过 程 , 第 一 个 随机 过 程 是 分 裂 中 接受 的 随机 过 程 , 第 二 个 随机 过 程 
是 分 裂 中 放弃 的 随机 过 程 . 而 Y 是 第 一 个 过 程 前 m 次 试验 成 功 的 次 数 . 因为 分 裂 
过 程 是 伯 努 利 的 , 参数 为 pg, 所 以 Y 是 参数 为 m 和 pa 的 二 项 分 布 . 

(b) 将 参数 为 和 的 泊 松 过 程 进行 分 裂 , 以 概率 p 接收 , 以 概率 1 ~ p 放弃 . 则 Y 是 在 
单位 时 间 内 分 裂 过 程 到 达 的 次 数 .Y 具有 表达 式 Y = Xi 十 .十 Xw, 其 中 入 是 原 
来 的 泊 松 过 程 在 单位 时 间 内 到 达 的 个 数 ， 由 于 每 一 个 到 达 要 分 裂 , Y 刚好 是 分 裂 过 
程 在 单位 时 间 内 的 到 达 次 数 . 因为 分 裂 过 程 是 泊 松 的 , 参数 为 pX, 所 以 Y 是 参数 为 
Xp 的 泊 松 分 布 . 

个 数 为 几何 随机 分 布 的 独立 指数 随机 变量 之 和 . 设 Y = Xi 十 :十 Xw, 其 中 随机 变量 X， 

服从 参数 为 和 的 指数 分 布 , 且 N 服从 参数 为 p 的 几何 分 布 , 假设 随机 变量 N, X1, X2，. .. 

是 独立 的 , 在 不 使 用 矩 母 函 数 的 前 提 下 证 明 : Y 服从 参数 为 Xp 的 指数 分 布 . 提示 : 根据 

一 个 分 裂 的 泊 松 过 程 随机 变量 的 含义 来 证 明 . 
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24.” 


25. 


站 
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解 ”我 们 在 第 4 章 利用 和 矩 母 函数 的 方法 得 到 了 这 个 结论 , 但 是 在 这 里 我 们 要 得 到 更 加 直 
观 的 推导 . 我 们 分 别 将 随机 变量 X;, N 作 如 下 解释 , 将 时 刻 X1, Xi 十 X2,... 视 作 参 数 
为 入 的 泊 松 过 程 中 的 到 达 时 刻 . 现在 将 这 个 过 程 (我 们 称 为 原 过 程 ) 进行 分 裂 , 每 一 个 到 
达 以 概率 1 一 p 拒绝 , 以 概率 p 接受 , 将 接受 的 到 达 形 成 分 裂 过 程 的 到 达 , 分 裂 过 程 为 参 
数 为 pA 的 泊 松 过 程 . 我 们 将 N 解释 为 第 一 次 接受 时 原 过 程 到 达 的 个 数 , 注意 到 随机 变 
量 Y = XX 十 Xs 十 .… 十 Xn 就 是 原 过 程 的 到 达 中 被 第 一 次 接受 的 时 间 , 这 个 时 间 也 是 分 
裂 过 程 的 第 一 次 到 达 时 间 , 按 泊 松 过 程 的 定义 , 这 个 分 裂 过 程 的 第 一 次 到 达 时 间 的 分 布 是 
参数 为 pA 的 指数 分 布 . 

泊 松 过 程 在 随机 区 间 内 的 到 达 个 数 . 考虑 一 个 参数 为 和 泊 松 过 程 和 一 个 独立 的 参数 为 v 
的 指数 分 布 随机 变量 工 , 计算 在 时 间 区 间 [0, T] 内 的 泊 松 过 程 到 达 个 数 的 分 布 列 . 

解 ”让 我 们 将 工 视 作 一 个 新 的 独立 的 参数 为 v 的 泊 松 过 程 第 一 次 到 达 的 时 间 , 并 且 将 
此 过 程 与 原始 过 程 合并 , 在 这 个 合并 的 过 程 中 , 每 一 个 到 达 来 自 原始 过 程 的 概率 为 3 入 ;， 
且 独 立 于 其 他 到 达 . 如 果 我 们 将 合并 过 程 中 的 每 一 次 到 达 都 看 作 是 一 次 试验 , 将 来 自 新 过 
程 的 到 达 都 视 作 一 次 成 功 的 话 . 注意 到 , 直到 第 一 次 成 功 的 到 达 数 (试验 数 ) 具有 几何 分 
布 的 密度 函数 , 形式 如 下 : 


v 入 kl 
Px(k) = (二 5) ( ， 二 2 


而 第 一 次 成 功 之 前 来 自 原始 泊 松 过 程 的 到 达 数 工 等 于 K 一 1, 并 且 它 的 分 布 列 为 


pL() = pr(l+1)= (2 (二 ， 1=0,1,... 


无 限 服务 队列 . 我 们 考虑 一 个 拥有 无 限 个 服务 者 的 排队 系统 , 在 此 系统 中 的 顾客 以 强度 
为 和 的 泊 松 分 过 程 到 达 . 第 i 个 顾客 在 系统 中 停留 一 段 随机 时 间 , 记 为 X;. 我 们 假设 随 
机 变量 X; 独立 同 分 布 , 并 且 独 立 于 到 达 过 程 . 为 了 简单 起 见 , 我 们 还 假设 X; 以 给 定 的 
概率 取 1,… ,mn 中 的 整数 值 . 试 计算 在 时 刻 t 时 系统 中 的 顾客 数 Ns 的 分 布 列 . 

解 ”我 们 将 那些 在 系统 中 停留 时 间 X 为 k 的 顾客 成 为 “类 型 k” 顾 客 . 可 以 将 整个 到 
达 过 程 看 作 是 n 个 子 泊 松 过 程 的 合并 , 第 个 子 过 程 就 相应 于 “类 型 k” 顾 客 的 到 达 过 
程 , 它 独立 于 其 他 过 程 且 频率 为 Apx, 其 中 px = P(Xi = 月 , 令 Nk 表示 在 时 刻 t 时 系统 
中 的 “类 型 k” 顾 客 数 , 这 样 就 有 


Nm = 3 Nk, 
k=1 


且 随 机 变量 NE 是 独立 的 . 

我 们 现在 计算 Ne 的 分 布 列 . 一 个 “类 型 k” 顾 客 在 时 刻 t 时 在 系统 中 当 且 仅 当 那个 顾 
客 是 在 时 刻 t 一 k 和 时 刻 t 之 间 到 达 的 , 因此 , Nk 具有 均值 为 和 kp 的 泊 松 分 布 , 由 于 独 
立 泊 松 随机 变量 之 和 依然 服从 泊 松 分 布 , 于 是 我 们 有 N 服从 参数 如 下 的 泊 松 分 布 列 , 参 
数 是 


ELNs] = 入 > kpyk = AE[X:i]. 
k=1 


26.” 分 裂 的 泊 松 过 程 的 独立 性 ,考虑 一 个 泊 松 过 程 分 裂 ， 以 独立 的 成 功 概率 为 p 的 投 硬币 的 


27. 


状 


方式 , 将 之 分 裂 为 两 个 过 程 . 在 例 6.13 中 , 我 们 得 出 了 每 一 个 子 过 程 都 是 泊 松 过 程 的 结 
论 , 现在 证 明 这 两 个 子 过 程 是 独立 的 . 

解 ”让 我 们 从 两 个 独立 的 强度 分 别 为 pA 和 (1 - p) 和 的 泊 松 过 程 P 和 Ps 开始 , 将 两 
过 程 合并 得 到 一 个 强度 为 和 的 泊 松 过 程 万 , 然后 按照 如 下 规则 将 过 程 PP 分 裂 为 两 个 子 
过 程 Pl 和 Ps: 一 个 到 达 注 册 为 子 过 程 P1(P), 当 且 仅 当 该 到 达 是 来 自 子 过 程 Pi(P,). 
很 明显 , 新 的 两 个 子 过 程 P{ 和 Ps 是 独立 的 , 因为 它们 就 等 同 于 原始 的 子 过 程 Pi 和 Ps. 
然而 , 产生 子 过 程 P{ 和 7 的 分 裂 机 制 与 题目 中 的 陈述 看 上 去 并 不 一 致 . 我 们 现在 就 要 
证 明 这 个 新 的 分 裂 机 制 在 统计 意义 上 是 等 同 于 题目 中 的 陈述 的 . 进而 将 会 得 到 , 按 题目 
中 的 陈述 构造 的 子 过 程 与 上 述 子 过 程 P{ 和 Ps 具有 相同 的 统计 性 质 , 所 以 是 独立 的 , 
现在 让 我 们 考虑 上 述 分 裂 机 制 . 假设 过 程 P 在 时 刻 t 出 现 一 个 到 达 ， 这 将 或 者 来 自 子 过 
程 Pi( 以 概率 p), 或 者 来 自 于 子 过 程 Pa( 以 概率 1 -~ p). 因此 这 个 刀 过 程 的 到 达 注 册 到 
子 过 程 Pf 和 Ps 的 概率 分 别 为 p 和 1 -~ p, 与 题目 中 描述 的 分 裂 过 程 一 致 . 现在 考虑 过 
程 P 中 的 第 个 到 达 , 并 且 令 Lk 表示 这 个 到 达 来 自 子 过 程 P， 这 个 事件 , 这 与 第 个 
到 达 注册 到 子 过 程 Pf 这 个 事件 是 完全 一 样 的 . 就 像 在 例 6.14 中 解释 的 , 事件 二 是 独 
立 的 . 这 样 , 对 于 不 同 的 到 达 , 它们 注册 到 子 过 程 P{ 和 P; 也 是 独立 的 . 这 说 明 将 刀 分 
裂 成 Pi 和 Ps 的 统计 机 制 与 题目 中 所 描述 的 分 裂 机 制 是 一 样 的 . 题目 中 所 分 裂 的 两 个 
过 程 与 Pf 和 Ps 的 统计 性 质 是 一 样 的 . 由 于 Pl 和 Ps 是 相互 独立 的 , 由 题目 中 分 裂 得 
到 的 两 个 子 过 程 也 是 相互 独立 的 . 

在 埃 尔 朗 到 达 过 程 中 的 随机 插入 

考虑 一 个 到 达 过 程 , 其 中 到 达 间 隔 时 间 是 独立 的 均值 为 2/ 和 的 2 阶 埃 尔 朗 随 机 变量 , 假 
设 过 程 已 经 进行 了 很 长 一 段 时 间 . 一 个 外 在 观测 者 于 时 刻 t 到 达 , 求 包含 t 的 到 达 间 隔 
区 间 长 度 的 密度 函数 . 

解 ”我 们 将 题目 中 所 说 的 埃 尔 朗 到 达 过 程 视 作 强 度 为 入 的 泊 松 过 程 的 一 部 分 ， 特别 的 ， 
泊 松 过 程 每 出 现 两 次 到 达 则 埃 尔 朗 过 程 出 现 一 次 到 达 ， 更 具体 地 , 我 们 可 以 说 埃 尔 朗 过 程 
的 到 达 相 当 于 泊 松 过 程 中 的 偶数 次 到 达 . 设 区 表示 泊 松 过 程 中 第 次 到 达 的 时 间 . 

取 满 足 Yk < t < Yx+i 的 开 ， 通过 文中 对 泊 松 过 程 的 随机 插入 的 讨论 , 我 们 知道 Yi ii 一 
Yx 服从 2 阶 埃 尔 朗 分 布 , 而 这 里 考虑 的 埃 尔 朗 过 程 的 到 达 间隔 区 间 根 据 到 的 偶 奇 分 别 
具有 形式 [Yx, Ykx+2] 或 者 [Yk_1,Yx+4i]. 在 第 一 种 情况 中 ， 埃 尔 朗 过 程 的 到 达 间 隔 时 间 
具有 形式 (Yr+l 一 YK) + (Ykx+42 一 Yk41). 这 里 Yk+2 一 Yk+1 服从 参数 为 入 的 指数 分 
布 , 且 独 立 于 Yx41 - Ykx. 事实 上 , 一 个 观测 者 在 时 刻 t 到 达 并 发 现 天 是 偶数 , 则 必须 
首先 等 待 到 下 一 个 泊 松 到 达 时 刻 Yxj1， 从 那个 时 刻 起 , 泊 松 过 程 重新 开始 , 所 以 到 下 一 
个 泊 松 到 达 所 需 时 间 Yx+s 一 Yx+i 是 独立 于 过 去 的 (也 就 独立 于 Yx+l 一 Yx), 并 且 服 
从 参数 为 和 的 指数 分 布 . 这 就 说 明 , 在 到 是 偶数 的 条 件 下 , 埃 尔 朗 过 程 的 到 达 间 隔 时 间 
区 间 长 度 Yk+2 一 Yxi1 是 一 个 3 阶 埃 尔 朗 分 布 ( 因为 它 是 一 个 指数 随机 变量 和 2 阶 埃 
尔 朗 随机 变量 之 和 ). 同 理 可 得 , 在 KK 是 奇数 的 条 件 下 , 埃 尔 朗 过 程 的 到 达 间 隔 时 间 区 间 
长 度 Yr+i 一 Yx-1 的 条 件 密度 函数 是 一 样 的 . 因为 对 于 条 件 下 , 包含 时 刻 t 的 到 达 间 隔 
区 间 长 度 的 条 件 密度 函数 都 是 3 阶 埃 尔 朗 分 布 , 这 样 , 覆盖 t 的 相 邻 的 到 达 区 间 的 长 度 
的 无 条 件 分 布 也 是 3 阶 埃 尔 朗 分 布 . 
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第 6 章 所 讨论 的 伯 努 利 过 程 和 泊 松 过 程 是 无 记忆 性 的 , 也 就 是 未 来 的 状态 不 
依赖 于 过 去 的 状态 : 新 的 “成 功 ” 或 “到 达 ” 不 依赖 于 该 过 程 过 去 的 历史 . 在 本 章 
中 , 我 们 将 考虑 未 来 会 依赖 于 过 去 的 过 程 , 并 且 能 够 在 某 种 程度 上 通过 过 去 发 生 的 
情况 预测 未 来 . 

我 们 强调 的 模型 里 , 过 去 对 未 来 的 影响 归结 为 对 状态 的 影响 , 它 的 概率 分 布 随 
时 间 变 化 . 进一步 地 , 我 们 讨论 的 模型 中 , 假设 变量 取 值 的 状态 只 取 有 限 个 值 . 我 们 
将 分 析 状 态 值 序列 的 概率 性 质 . 

本 章 中 介绍 的 模型 的 应 用 范围 是 很 广 的 . 它 包含 了 几乎 全 部 的 动力 系统 . 该 系 
统 的 状态 随时 间 变 化 , 具有 不 确定 性 . 这 种 系统 在 很 多 领域 都 有 应 用 , 例如 , 通信 、 
自动 化 控制 、 信息 传 输 、 制 造 业 、 经济 以 及 运筹 学 . 
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我 们 首先 考虑 离散 时 间 的 马尔 可 夫 链 , 其 中 状态 在 确定 的 离散 时 间 点 上 发 生变 
化 , 由 于 时 间 已 经 离散 化 , 通常 使 用 变量 ”来 表示 时 刻 . 在 任意 时 刻 n, 用 X 表示 
链 的 状态 , 并 且 假 定 所 有 可 能 状态 组 成 有 限 集合 5, 称 该 集合 为 状态 空间 . 不 失 一 
般 性 , 除非 男 有 陈述 , 我 们 用 S = {1,… ,m} 表示 这 个 状态 空间 , 其 中 m 为 某 一 个 
正 整 数 . 马尔 可 夫 链 由 转移 概率 pij 所 描述 : 即 当 状态 是 i 时 , 下 一 个 状态 等 于 7 的 


Dii 一 P(Xrn+i 一 j|Xn 一 2), i,jE€ES. 


马尔 可 夫 链 的 核心 假设 是 只 要 时 刻 n 的 状态 为 i, 不 论 过 去 发 生 了 什么 , 也 不 论 链 
是 如 何 到 达 状 态 i 的 , 下 一 个 时 刻 转 移 到 状态 ; 的 概率 就 一 定 是 转移 概率 pij. 数 
学 上 , 马尔 可 夫 链 的 特征 称 为 马尔 可 夫 性 质 , 即 满足 : 对 于 任意 的 时 间 n, 对 任意 的 
状态 i,j e S, 以 及 任意 之 前 可 能 的 状态 序列 io,… ,in_1, 均 有 


P(Xn+1 = j|Xn = i Xn 1 = in i, ,Xo=io)= P(Xn41 = JXn, = 1) = piy. 


所 以 , 下 一 个 状态 Xn+i 的 概率 分 布 只 依赖 于 前 一 个 状态 X. 
转移 概率 pij 一 定 是 非 负 的 , 且 其 和 为 1, 即 
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》_pij = 1， ”对 所 有 的 i 成立. 
j=1 


通常 pi 可 取 正 值 , 这 样 下 一 个 状态 有 可 能 和 当前 状态 一 样 . 就 算 状 态 不 发 生 
变化 , 我 们 也 认为 状态 发 生 了 一 次 特殊 的 转移 (“ 自 身 转移 "). 


马尔 可 夫 模 型 的 性 质 

。 一 个 马尔 可 夫 链 模型 由 以 下 特征 确定 : 
(a) 状态 集合 S = {1,… ,m}， 
(b) 可 能 发 生 状 态 转移 (i,j) 的 集合 , 即 由 所 有 pi > 0 的 (i,j) 组 成 ， 
(c) pij 的 取 值 ( 取 正 值 ). 

。 由 该 模型 描述 的 马尔 可 夫 链 是 一 个 随机 变量 序列 Xo, XX1, XX2,:…，, 它们 取 
值 于 5, 并且 满足 : 对 于 任意 的 时 间 mw 所 有 状态 i,j e 5S, 以 及 所 有 之 前 
可 能 的 状态 序列 io0,… ,i_1, 均 有 


P(Xn,+1 =jXn = i, Xn 1 = in1,.. ., Xo = 各) = Dij. 


马尔 可 夫 链 可 以 由 转移 概率 矩阵 所 刻画 , 它 是 一 个 简单 的 二 元 矩阵 , 其 第 ; 行 ， 
第 7 列 的 元 素 为 po: 


Pill P12 ... Pim 
P21 P22 ... Po2om 
Dmil Pm2 ... Pmm 


同时 , 也 可 以 直观 地 用 转移 概率 图 表示 马尔 可 夫 链 , 图 中 用 节点 (nodes) 表示 
状态 , 连接 节点 的 (有 向 ) 弧 线 (arcs) 表示 可 能 发 生 的 转移 . 将 pi 的 数值 标记 在 相 
应 的 弧 线 旁边 , 这 样 做 可 使 得 整个 模型 更 加 直观 , 模型 的 主要 性 质变 得 显而易见 . 
例 7.1 爱丽 丝 上 一 门 概率 课程 , 每 周 她 可 能 进步 , 也 可 能 落后 . 如 果 在 给 定 的 一 
周 里 , 她 进步 了 , 那么 她 下 一 周 进步 (或 落后 ) 的 概率 是 0.8 (或 0.2); 相应 地 , 如 果 
在 给 定 的 一 周 里 , 她 落后 了 , 那么 她 下 一 周 进步 (或 落后 ) 的 概率 是 0.6 (或 0.4). 我 
们 假设 这 些 概率 都 不 依赖 于 她 之 前 的 每 周 是 否 进步 或 落后 , 所 以 该 问题 就 是 一 个 典 
型 的 马尔 可 夫 链 问题 (未 来 的 状态 依赖 过 去 的 方式 是 只 依赖 于 当前 状态 来 体现 )， 

我 们 令 状 态 1 和 状态 2 分 别 表示 进步 和 落后 , 那么 转移 概率 为 


有 11 一 0.8, p12 一 0.2, p21 一 0.6, p22 一 0.4, 
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转移 概率 矩阵 是 


图 7.1 例 7.1 中 的 转移 概率 图 
例 7.2 (蜘蛛 和 苍蝇 ) ”一 只 苍蝇 在 一 条 直线 上 移动 , 每 次 移动 一 个 单位 长 度 . 每 单 
位 时 间 , 它 以 0.3 的 概率 向 左 移动 一 个 单位 , 以 0.3 的 概率 向 右 移动 一 个 单位 , 且 以 
0.4 的 概率 停留 在 原 地 , 并 且 它 们 独立 于 过 去 的 移动 . 两 只 蜂 蛛 等 在 位 置 1 和 位 置 
m: 如 果 苍 蝇 到 达 这 两 个 位 置 , 它 将 被 蜂 蛛 捕捉 , 于 是 过 程 就 结束 . 我 们 将 应 用 马尔 
可 夫 链 模型 , 假设 苍蝇 开始 位 于 1 和 m 中 间 的 某 一 个 位 置 . 
我 们 令 状 态 为 1,2,… ,m, 表示 苍蝇 对 应 着 的 位 置 . 于 是 非 零 转移 概率 为 


p1I 三 1 pmm = 1, 
0.4, 若 7 三 
该 转移 概率 图 以 及 转移 概率 矩阵 见 图 7.2. 口 


7.2 例 7.2 中 的 转移 概率 图 和 转移 概率 矩阵 , 其 中 m = 4 


例 7.3 (机 器 出 现 故障 、 维修 和 更 换 ) ”一 台 机 器 在 给 定 的 某 天 可 能 正常 工作 也 可 能 
出 现 故 障 . 如 果 它 正常 工作 , 那 它 以 概率 将 在 下 一 天 出 现 故 障 , 并 且 以 概率 1 一。 
在 下 一 天 正常 工作 . 如 果 它 在 该 天 出 现 故 障 , 那 就 维修 这 台 机 器 . 则 它 以 概率 > 在 
下 一 天 正常 工作 , 并 且 以 概率 1 - r 在 下 一 天 仍然 出 现 故 障 . 

我 们 利用 马尔 可 夫 链 给 该 机 器 的 状态 建立 模型 , 两 个 状态 如 下 : 
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状态 1: 机 器 正常 工作 ; 状态 2: 机 器 出 现 故 障 . 
转移 概率 图 如 图 7.3 所 示 . 转移 概率 矩阵 为 


正常 工作 出 现 故 障 
图 7.3 例 7.3 中 的 转移 概率 图 


这 里 的 状态 转移 显然 具有 马尔 可 夫 性 质 : 第 二 天 机 器 的 状态 只 依赖 于 当天 的 
状态 . 但 是 , 就 算 状态 是 依赖 于 前 几 天 的 状态 , 也 是 可 以 利用 马尔 可 夫 链 模型 的 . 一 
般 的 想法 是 添加 新 的 状态 来 刻画 过 去 相关 的 信息 , 下 面 介绍 这 种 处 理 方法 . 

假设 只 要 机 器 在 ! 天 内 都 出 现 故障 的 话 , 那么 就 用 一 台新 机 器 代替 这 台 机 器 . 
为 了 利用 马尔 可 夫 链 模型 , 我 们 将 原来 的 表示 机 器 出 现 故障 的 状态 2, 用 几 个 新 的 
状态 代替 , 这 些 状态 包含 了 机 器 出 现 故 障 的 天 数 . 它们 是 


状态 (2,@) : 机 器 已 经 出 现 故 障 了 i 天 ，i = 1,2,… ,1. 
该 转移 概率 图 如 图 7.4 所 示 , 其 中 1 = 4. 口 
正常 工作 ， 出 现 故障 


| GT 人 1_r 的 1—r "0 


图 74 例 7.3 中 第 二 部 分 的 转移 概率 图 ， 如 果 机 器 持续 出 现 故障 ! = 4 天 将 会 被 换 成 一 个 
新 的 能 正常 工作 的 机 器 


前 面 例子 的 第 二 部 分 说 明了 如 果 想 建立 马尔 可 夫 模 型 , 我 们 需要 根据 未 来 状态 
对 过 去 的 依赖 性 建立 新 的 状态 . 我 们 要 注意 的 是 , 添加 新 的 状态 具有 一定 的 自 由 性 ， 
但 是 一 般 而 言 , 数量 要 尽量 少 , 这 样 是 为 了 避免 分 析 或 计算 的 麻烦 . 
7.1.1 路径 的 概率 


给 定 一 个 马尔 可 夫 链 模型 , 我 们 可 以 计算 未 来 任何 一 个 给 定 状态 序列 的 概率 . 
这 类 似 于 在 序 贯 树 形 图 中 乘法 规则 (the multiplication rule) 的 应 用 . 特别 地 , 我 们 
有 


P(Xo = io, XI = ,Xn = in) = P(Xo = to)Pioi Pasa "Pin 1i,.. 
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证 明 该 性 质 , 注意 到 
P(Xo = io, Xi1 = 11,.… ,Xn = in) 

=P(Xn = in|Xo0 = io,: ,Xn-1 = in1)P(Xo = io,** ,Xn-1 = in-1) 

=pi,_iinP(Xo 一 20， ” ,Xn-1 二 in_1), 
其 中 最 后 一 个 等 式 我 们 利用 了 马尔 可 夫 链 的 性 质 ， 我 们 接 下 来 应 用 同样 的 方法 来 
计算 P(Xo = i0,… ,Xn_1 = iw_1), 依次 计算 下 去 就 可 以 得 到 我 们 所 期 望 的 形式 . 
如 果 初 始 状态 Xo 已 知 , 且 等 于 某 个 io, 那么 类 似 的 推导 可 得 

P(X1 = ,Xn = in|Xo = i0) = pioiiPiria Di ii， 


图 形 上 , 一 个 状态 序列 能 表示 为 在 转移 概率 图 中 一 个 转移 弧 线 序 列 , 并 且 在 给 定 初 
始 状 态 下 , 该 路 径 的 概率 等 于 每 个 弧 线 上 转移 概率 的 乘积 . 
例 7.4 ”对 于 览 蛛 和 苍蝇 例子 ( 例 7.2) 中 , 我 们 有 


P(X1 = 2, X2 = 2, Xs = 3, Xs 一 4 Xo = 2) = p22p22p23pa4 一 (0.4)2(0.3)2， 
我 们 也 可 以 得 到 
P(Xo = 2, X1 = 2, Xa = 2, Xs = 3, Xs = 4)=P(Xo = 2)p22p22p23p34 
=P(Xo = 2)(0.4)2(0.3)2. 
注意 , 要 计算 上 述 非 条 件 形式 的 路 径 概 率 , 需要 知道 初始 状态 Xo 的 概率 分 布 ， 口 
7.1.2 n 步 转移 概率 


许多 马尔 可 夫 链 问题 要 求 计算 在 当前 状态 的 条 件 下 , 未 来 某 个 时 期 状态 的 概率 
分 布 . 这 个 概率 称 为 n 步 转移 概率 , 定义 为 
rij(n) = P(Xn = jlXo = i). 
换 句 话说 , rij(m) 表示 在 给 定 当前 状态 i 的 条 件 下 , ”个 时 间 段 后 的 状态 将 是 7 的 
概率 . 它 可 以 通过 下 面 的 基本 迭代 公式 计算 , 该 公式 被 称 为 查 普 曼 - 科 尔 莫 戈 罗 夫 
方程 (Chapman-Kolmogorov 方程 , 也 即 C-K 方程 ). 


n 步 转移 概率 的 查 普 曼 - 科 尔 莫 戈 罗 夫 方程 
n 步 转 移 概率 利用 迭代 公式 求 得 


rij(n) = > rij(n — 1)pg, 对 于 所 有 mn > 1,i,ij 成 立 ， 


k=1 


rij(1) = pi. 
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为 证 明 该 公式 , 我 们 只 需 应 用 如 下 全 概率 公式 : 
P(X, = jlXo =) -》PUx， ， = k|Xo =i)P(Xn = jl 一 及 2 一 让 
= 
-rl — 1)pry; 


我 们 在 这 里 利用 了 马尔 可 夫 性 质 : 只 要 以 X,_1 = 为 条 件 , 那么 条 件 Xo ==i 将 不 
会 对 下 一 步 到 达 7 的 概率 pkj 产生 影响 . 图 示 请 见 图 7.5. 


时 刻 0 时 刻 一 1 时 刻 nn 


图 7.5 C-K 方程 的 推导 示意 图 . ”时 刻 达 到 状态 j 的 概率 等 于 以 不 同 路 径 到 达 7 的 概率 
Tikp(n 一 1)pnj 的 总 和 


我 们 把 rij(n) 看 成 一 个 二 维和 矩阵 第 i 行 、 第 ; 列 的 元 素 , 组 成 的 矩阵 称 为 nn 步 
转移 概率 矩阵 . "图 7.6 和 图 7.7 分 别 表 示例 7.1 和 例 7.2 中 的 n 步 转移 概率 rij (n). 
在 这 两 个 例子 中 , 发 现 了 许多 rij(n) 很 有 趣 的 极限 性 质 . 在 图 7.6 中 , 我 们 发 现 当 
n 一 co 时 , 每 一 个 rij(n) 都 收敛 于 一 个 极限 值 , 这 个 极限 值 不 依赖 于 初始 状态 i 
此 , 当时 间 不 断 增 大 时 每 个 状态 都 有 一 个 正 的 “ 稳 态 ” 概率 . 进一步 地 , 概率 rij(m) 
在 ”很 小 时 , 依赖 于 初始 状态 i, 但 是 随 着 时 间 的 增 大 , 这 种 依赖 性 将 会 逐渐 消失 . 
很 多 (但 不 是 全 部 ) 随时 间 变 化 的 概率 模型 都 具有 这 样 的 性 质 ， 在 充分 长 的 时 间 后 ， 
初始 条 件 的 影响 可 以 被 忽略 . 

在 图 7.7 中 , 我 们 发 现 了 在 数值 上 的 不 同 极限 行为 : rij(n) 依旧 收敛 , 但 是 极限 
值 依 赖 于 初始 状态 , 而 且 对 于 某 特定 的 状态 极限 值 可 能 为 0 这 里, 我 们 有 两 个 状 
态 是 “吸收 ”状态 , 也 就 是 说 一 旦 到 达 了 这 个 状态 , 将 永远 处 于 这 个 状态 . 具体 地 说 
状态 1 和 状态 4 是 “吸收 状态 ”, 与 实际 问题 相对 应 的 意思 是 苍蝇 被 两 只 蜂 蛛 之 一 
捕捉 . 只 要 给 足 时 间 , 苍蝇 一 定 会 到 达 吸 收 状 态 , 即 苍蝇 被 蜂 典 捕 提 . 因此 , 处 于 非 

中 对 矩阵 乘法 运算 熟悉 的 读者 ，C-K 方程 可 以 如 下 表述 : rij (n) 组 成 的 nm 步 转移 概率 矩阵 ， 等 于 由 


7ij(n 一 1) 组 成 的 n 一 1 步 转移 概率 矩阵 乘 以 一 步 转移 概率 矩阵 ， 所 以 n 步 转移 概率 矩阵 是 转移 概率 
矩阵 的 n 次 方 . 
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吸收 状态 2 和 状态 3 的 概率 随时 间 的 增长 将 减 小 为 0. 最 后 , 究竟 达到 哪个 吸收 状 
态 , 其 概率 的 大 小 取决 于 初始 位 置 的 远近 . 


n 步 转移 概率 作为 步 数 ”的 函数 


rs(1) ri(2) ri(3) Ti(4) 7,(5) 
n 步 转移 概率 阵 的 序列 
图 7.6 例 7.1 的 nn 步 转移 概率 . 观察 到 随时 间 n 的 增加 , rijy(n) 收敛 于 不 依赖 于 初始 状态 
的 极限 值 


rz1(70) 


n 步 转移 概率 阵 的 序列 
7.7 ”图 的 上 部 表示 “ 蜂 蛛 和 若 蝇 ”的 例 7.2 中 , n 步 转移 概率 rii(n) 随 n 变化 的 状况 . 我 
们 观察 到 这 些 概率 收敛 于 一 个 极限 值 , 但 是 极限 值 依赖 于 初始 状态 i. 图 的 下 部 展示 
7 步 转移 概率 阵 随 ” 的 变化 状况 , 注意 , 处 于 非 吸 收 态 2 或 状态 3 的 概率 riz(”) 和 
ri3(n), 随 的 增 大 , 其 概率 值 趋 近 于 0 


这 些 例子 说 明了 马尔 可 夫 链 状态 类 型 以 及 渐 近 性 质 的 多 样 性 .这 激发 了 我 们 
对 马尔 可 夫 链 进行 分 类 和 分 析 的 兴趣 , 这 将 是 接 下 来 三 节 的 主题 . 
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7.2 ”状态 的 分 类 


在 7.1 节 , 从 我 们 列举 的 例子 中 可 以 看 到 马尔 可 夫 链 的 不 同 状态 在 数值 上 具有 
不 同 的 性 质 . 特别 地 , 一 些 状态 被 访问 一 次 后 , 一 定 还 会 被 继续 访问 , 而 对 于 另外 一 
些 状态 却 不 是 这 样 的 . 本 节 将 重点 讨论 这 种 情况 的 原理 . 特别 地 , 我 们 希望 给 出 马 
尔 可 夫 链 的 状态 分 类 , 并 重点 分 析 它 们 被 访问 的 长 期 频率 . 

第 一 步 , 我 们 将 状态 的 可 访问 性 给 出 一 些 严格 的 定义 . 称 状态 7 为 从 状态 i 柯 达 
的 , 如 果 对 于 某 一 个 n, n 步 转移 概率 rz (n) 是 正 的 , 也 就 是 说 , 某 个 时 段 之 后 , 从 状 
态 i 出 发 , 以 一 个 正 概 率 可 以 到 达 状 态 j. 另 一 个 等 价 的 定义 是 存在 可 能 的 状态 序列 
纪 和 ,in-1,7, 开始 于 状态 i, 结束 于 7 并 且 其 中 每 步 转移 (i,1), (i1,i2),:… (2 
in-1), (in-1,7) 都 具有 正 概率 . 今后 , 我 们 采用 直观 的 语言 ， 由 i 出 发 , 可 到 达 ; 表 
示 这 种 意思 . 令 4(i) 是 所 有 从 状态 i 可 达 的 状态 集合 . 我 们 定义 状态 i 是 常 返 的 ， 
如 果 对 于 每 个 从 i 出 发 可 达 的 状态 j, 相应 地 从 7 出 发 也 可 达 i; 也 就 是 说 , 对 于 所 
有 属于 4(i) 的 状态 j, 状态 i 也 属于 4A(7). 

当 我 们 开始 于 一 个 常 返 状态 i, 我 们 只 能 访问 状态 ; e A(i), 其 中 i 是 从 ;可 
达 的 . 由 于 i 是 常 返 的 , 从 未 来 任何 一 个 状态 , 总 是 有 一 定 概率 可 以 回 到 状态 i 的. 
只 要 给 足 时 间 , 这 总 是 能 发 生 的 . 重复 该 推导 可 知 , 如 果 一 个 常 返 态 被 访问 一 次 , 那 
么 一 定 能 被 回访 无 限 次 (参见 本 章 末 关于 该 推导 严格 证 明 的 习题 ). 

如 果 一 个 状态 不 是 常 返 的 , 我 们 称 之 为 非常 返 的 .所 以 , 如 果 存 在 一 个 状态 
7 & A(i), 使 得 i 4 4()), 那么 状态 i 是 非常 返 的 . 当 状态 i 每 次 访问 后 , 将 以 正 概 
率 可 以 到 达 状 态 j. 只 要 给 足 时 间 , 这 将 会 发 生 , 但 那 之 后 , 状态 ; 将 不 再 会 被 回访 . 
所 以 , 非常 返 的 状态 只 能 被 回访 有 限 次 , 参见 本 章 末 后 的 习题. 

注意 ,状态 的 非常 返 或 常 返 能 由 转移 概率 图 的 缴 线 所 决定 [这 些 状态 转移 对 
(7) 有 pis > 0], 而 不 是 由 pij 的 具体 数值 决定 . 图 7.8 列举 了 一 个 转移 概率 图 , 并 
且 附 上 了 状态 的 特性 , 常 返 的 或 非常 返 的 . 


QQ 
SOCORROREOYS 
常 返 非常 返 常 返 常 返 
7.8 ”转移 概率 图 中 表示 状态 的 分 类 示意 图 . 对 于 状态 1, 唯一 可 达 的 状态 就 是 它 本 身 , 所 
以 状态 1 是 常 返 态 . 状态 1, 3, 4 是 可 从 2 可 达 的 , 但 是 2 却 不 能 从 它们 可 达 , 所 以 


状态 2 是 非常 返 状态 . 状态 3, 4 是 相互 可 达 的 , 所 以 它们 都 是 常 返 的 


如 果 i 是 常 返 态 , 那么 从 i 可 达 的 状态 集合 4(i) 组 成 一 个 常 返 类 (或 简单 的 
类 ), 这 意味 着 4(?) 中 所 有 的 状态 都 是 相互 可 达 的 ,4(i) 之 外 的 状态 不 是 从 这 些 状 
态 可 达 的 . 用 数学 形式 来 表述 就 是 , 对 于 一 个 常 返 态 i, 对 任意 的 ; 属于 A(i), 我 们 
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有 A4(i) = 4(7), 这 个 结论 由 常 返 的 定义 可 得 . 例如 , 在 图 7.8 中 , 状态 3, 4 形成 一 
个 常 返 类 , 而 状态 1 自身 形成 一 个 类 . 

可 以 看 到 , 从 任何 一 个 非常 返 状态 出 发 , 至 少 有 一 个 常 返 状态 是 从 它 可 达 的 . 
这 是 一 个 直观 的 事实 , 证 明 将 留 作 本 章 末 的 习题 . 由 此 可 以 知道 , 对 于 一 个 马尔 可 
夫 链 至 少 存在 一 个 常 返 状态 , 从 而 也 就 至 少 存在 一 个 常 返 类 . 所 以 , 我 们 可 以 得 到 
以 下 结论 . 


马尔 可 夫 链 的 分 解 
。 一 个 马尔 可 夫 链 的 状态 集合 可 以 分 解 成 一 个 或 多 个 常 返 类 , 加 上 可 能 的 一 
些 非常 返 状 态 . . 
一 个 常 返 态 从 它 所 属 的 类 里 任何 一 个 状态 出 发 是 可 达 的 , 但 从 其 他 类 里 的 


常 返 状 态 出 发 是 不 可 达 的 . 
。 从 任何 一 个 常 返 状态 出 发 都 不 可 到 达 非 常 返 状 态 . 
。 从 一 个 非常 返 状 态 出 发 , 至 少 有 一 个 或 更 多 的 常 返 态 是 可 达 的 . 


图 7.9 提供 了 一 些 马尔 可 夫 链 分 解 的 例子 . 状态 的 分 解 为 研究 马尔 可 夫 链 提供 
了 一 种 强 有 力 的 方法 , 同时 对 状态 转移 也 提供 了 直观 的 解释 . 特别 地 , 我 们 可 以 看 
到 如 下 现象 . 

(a) 一 旦 一 个 状态 进入 (或 开始 于 ) 一 个 常 返 类 , 它 将 停留 在 这 个 类 里 ; 因为 在 
这 个 类 里 的 所 有 状态 都 是 相互 可 达 的 , 类 里 所 有 状态 将 被 无 限 次 的 回访 . 

(b) 如 果 初 始 状态 是 非常 返 的 , 那么 状态 转移 的 路 径 开始 部 分 包含 非常 返 状 态 ， 
最 后 部 分 一 定 是 由 来 自 同一 个 类 的 常 返 状态 组 成 的 . 

为 了 理解 马尔 可 夫 链 长 期 的 行为 , 分 析 由 单个 常 返 类 组 成 的 链 是 很 重要 的 . 为 
了 理解 它 短期 的 行为 , 分 析 如 何 从 一 个 给 定 的 非常 返 状态 出 发 , 进入 一 个 特定 的 常 
返 类 的 机 理 也 是 很 重要 的 . 这 两 个 问题 , 长 期 行为 和 短期 行为 , 将 分 别 是 7.3 节 和 
7.4 节 的 研究 重点 . 


周期 


常 返 类 还 有 一 个 重要 的 性 质 , 即 一 个 状态 被 回访 时 间 出 现 或 者 不 出 现 周期 性 . 
特别 地 , 称 一 个 常 返 类 是 有 周期 的 , 如 果 它 的 状态 能 被 分 成 d > 1 个 相互 不 相交 的 
子 集 51,… ,Sa, 且 满 足 所 有 的 转移 都 是 从 一 个 这 样 的 子 集 到 下 一 个 ; 参见 图 7.10 
所 示 . 更 加 精确 地 说 , 就 是 


了 7E OK 1) 当 k=1,...,d—1, 
如 果 jieE Sk, pi; > 0， 那么 | + 


jES1， 当 k=d. 


如 果 一 个 常 返 类 不 具有 周期 , 我 们 称 之 为 非 周期 的 . 
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一 个 非常 返 状 态 (3) 和 一 个 常 返 状态 (1 和 2) 


两 个 非常 返 状态 (2 和 3) 和 两 个 常 返 类 
(1 是 一 个 常 返 类 , 4 和 5 组 成 另 一 个 常 返 类 ) 


7.9 一 些 马尔 可 夫 链 的 状态 分 解 为 常 返 类 和 非常 返 状 态 的 例子 示意 图 


7.10 有 周期 的 常 返 类 的 结构 . 本 图 中 , 周期 4 二 3 


所 以 , 在 一 个 有 周期 的 常 返 类 中 , 我 们 从 某 个 子 集 的 一 个 状态 出 发 , 依次 通过 
每 一 个 子 集 , 经 过 d 步 后 , 又 回 到 了 原来 的 子 集 . 举例 说 明 , 图 7.9 中 的 第 二 个 链 , 
常 返 类 (状态 1 和 状态 2) 是 有 周期 的 , 由 状态 1 出 发 , 经 过 状态 2, 又 回 到 状态 1; 
同样 地 , 图 7.9 中 的 第 三 个 链 , 由 状态 4 和 状态 5 组 成 的 常 返 类 也 是 有 周期 的 . 此 
外 , 该 图 中 所 有 其 他 的 常 返 类 都 是 非 周期 的 . 

注意 , 给 定 一 个 有 周期 的 常 返 类 , 对 于 链 中 任意 一 个 正 时 刻 mw 以 及 类 中 的 状 
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态 i 则 必 存 在 一 个 或 多 个 状态 j, 使 得 rij(n) = 0. 其 原因 是 从 状态 i 出 发 , 时 刻 n 
只 可 能 到 达 其 中 一 个 集合 Ss. 所 以 , 要 证 明 一 个 给 定 的 常 返 类 R 是 非 周期 的 , 只 
需 验证 是 否 存在 一 个 特定 的 时 刻 n > 1 和 特定 的 状态 i e R, 使 得 经 过 n 步 以 后 ， 
可 以 到 达 R 中 所 有 的 状态 , 也 就 是 说 , 对 于 所 有 的 j € R 有 rij(n) > 0. 举例 说 , 图 
7.9 中 的 第 一 个 链 . 从 状态 1 开始 , 每 一 个 状态 都 可 能 在 时 刻 n = 3 时 到 达 , 所 以 该 
链 中 唯一 的 一 个 常 返 链 是 非 周期 的 . 

相反 的 陈述 也 是 正确 的 (在 此 不 给 予 证 明 ): 如 果 一 个 常 返 类 R 是 非 周期 的 , 那 
么 必 存 在 时 刻 n, 使 得 对 于 任何 属于 RR 的 任意 i 和 j, 均 有 ri (n) > 0; 参见 本 章 末 
的 习题 . 


周期 


考虑 一 个 常 返 类 已 . 

。 如果 一 类 中 的 状态 能 被 分 成 d > 1 个 互 不 相交 的 子 集 51,… ,Sa, 满足 所 
有 的 转移 都 是 从 子 集 Sk 到 Sk+i 的 (或 到 51, 当 k 有 = d 时 ), 则 称 该 类 为 周 
期 类 . 

。 一 类 RR 称 为 非 周 期 的 , 当 且 仅 当 存在 时 刻 mw 使 得 对 于 任何 i,j € RR, 满足 
rij(n) > 0. 

LL 


7.3 稳 态 性 质 


在 马尔 可 夫 链 模型 中 , 我 们 常常 感 兴趣 的 是 它 长 期 的 状态 性 质 , 也 就 是 说 , 当 
时 刻 ”非常 大 时 , n 步 转移 概率 rij(n) 的 渐 近 行为 . 我 们 在 图 7.6 看 到 rijy(n) 收敛 
到 一 个 固定 的 值 , 并 独立 于 初始 状态 的 选取 . 我 们 希望 了 解 这 种 收敛 性 质 在 多 大 程 
度 上 是 典型 的 性 质 . 


如 果 有 两 个 或 者 更 多 个 常 返 状 态 类 , 很 显然 , rij(n) 的 极限 值 一 定 依赖 于 初始 
状态 (未 来 访问 ; 的 概率 依赖 于 状态 ; 是 否 和 初始 状态 i 处 于 相同 的 类 ). 所 以 , 我 
们 将 链 限 定 于 只 有 一 个 常 返 类 , 加 上 一 些 可 能 存在 的 非常 返 状 态 . 对 于 单个 常 返 类 
的 情况 研究 清楚 以 后 , 多 个 常 返 类 的 情况 也 就 变 得 简单 明白 了 . 因为 我 们 知道 , 一 
且 状 态 进 入 一 个 特定 的 常 返 类 , 它 将 一 直 处 于 这 个 类 中 . 所 以 , 可 以 利用 单一 类 链 
的 渐 近 行为 去 理解 具有 多 个 常 返 类 的 马尔 可 夫 链 的 渐 近 行为 . 

就 算是 一 个 只 有 单个 常 返 类 的 链 , 7;;(n) 也 可 能 是 不 收敛 的 . 为 了 验证 这 点 , 我 
们 假设 一 个 常 返 类 具有 两 个 状态 , 状态 1 和 状态 2, 满足 状态 1 只 能 到 达 状 态 2, 而 
状态 2 也 只 能 到 达 状 态 1(p12 = p21 = 1). 那么 , 从 某 一 个 状态 开始 , 任意 偶数 次 转 
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移 后 将 回 到 原来 的 状态 , 任意 奇数 次 转移 之 后 达到 对 方 的 状态 . 也 就 是 ， 
1， 7? 是 偶数 ， 
Tiy(n) = 
0， 7? 是 奇数 ， 


这 种 现象 说 明 该 常 返 态 是 周期 的 , 并 且 xi;(n) 是 摆动 的 . 

排除 我 们 前 面 讨 论 的 两 种 情况 (多 个 常 返 类 和 有 周期 的 类 ) 外 , 现在 我 们 可 以 
断言 , 对 于 每 一 个 状态 j, 处 于 状态 ; 的 概率 rij(n) 趋 近 于 一 个 独立 于 初始 状态 i 
的 极限 值 , 这 个 极限 值 记 为 rwj, 有 如 下 表示 : 


7; ST P(X = 7), 当 nn 很 大 时 ， 


并 且 称 之 为 状态 ; 的 稳 态 概率 . 接 下 来 是 一 个 重要 定理 . 它 的 证 明 很 复杂 , 将 结合 
本 章 末 问题 的 几 个 其 他 证 明 列 出 . 


稳 态 收敛 定理 
考虑 一 个 非 周 期 的 , 单个 常 返 类 的 马尔 可 夫 链 . 那么 , 状态 和 它 对 应 的 稳 态 
概率 x; 具有 如 下 性 质 . 
(a) 对 于 每 个 j, 我 们 有 : 
jin ri(m) 二 TI， 对 于 所 有 的 守 


(b) zy 是 下 面 方程 组 的 唯一 解 : 


Tj 二 TEDRI, 


Tj 一 0， 对 于 所 有 的 非常 返 状态 
zj >0， 对 于 所 有 的 常 返 态 / 


稳 态 概率 x; 的 总 和 为 1, 在 状态 空间 中 形成 了 概率 分 布 , 通常 称 之 为 链 的 平稳 
分 布 (stationary distribution)， 称 之 为 平稳 的 原因 是 ， 如 果 初 始 状态 是 根据 该 分 布 
选择 的 , 也 就 是 说 , 如 果 


P(Xo = 了 = 7, j= 1,.…,m, 
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那么 , 利用 全 概率 公式 , 我 们 有 


P(X1 三 j= SPp(xXo = 二 k) )pxj = Dm — = Ty, 
k=1 


其 中 上 式 最 后 一 个 等 号 利用 的 是 稳 态 收敛 定理 的 第 (b) 部 分 . 类 似 地 , 对 于 所 有 的 
n 和 jj 均 有 P(X = 让 = zj. 所 以 , 如 果 初 始 状 态 根据 平稳 分 布 选 择 , 那么 未 来 任 
何 时 候 的 状态 都 具有 相同 的 分 布 . 

方程 组 


Tj = Mepkj, j=1,.…,m, 


称 之 为 平衡 方程 组 . 它们 是 上 述 定理 第 (a) 部 分 和 查 普 曼 - 科 尔 莫 戈 罗 夫 方程 组 的 
简单 结合 的 结果 . 实际 上 , 一 旦 rij(n) 收敛 于 某 一 个 xj, 那么 我 们 考虑 方程 组 ， 


rij(n) = 》 ris(n — 1)pgy, 
k=1 
两 边 对 n 一 oo 取 极 限 , 得 到 平衡 方程 组 ?又 结合 归 一 化 方程 
Dn 一 |， 
k=1 


平衡 方程 组 能 够 解 出 xy. 下 面 举 一 些 例子 来 说 明 如 何 求解 . 
例 7.5 考虑 两 个 状态 的 马尔 可 夫 链 , 它们 的 转移 概率 是 


p11 = 0.8, p12 = 0.2, 
p21 一 0.6， p22 = 0.4. 
(这 和 例 7.1 和 图 7.1 介绍 的 链 是 相同 的 .) 平衡 方程 组 为 


NR1 = TiD11 十 T22D21， M2 = T1D12 十 T2D22， 


或 者 
Tl1 一 0.8.7l 十 0.6.7o， To 一 0.2.7l 十 0.4.72. 


注意 到 上 面 的 两 个 方程 是 相互 依赖 的 , 因为 它们 共同 等 价 于 


nl 二 37T2. 


人 @ 运用 线性 代数 中 一 个 重要 的 有 名 的 定理 ( 称 为 Perron-Frobenius 定理 ), 可 以 证 明 任意 马尔 可 夫 链 
的 平衡 方程 组 总 有 非 负 解 , 一 个 非 周期 的 只 有 单个 常 返 类 的 马 氏 链 ， 综 合 归 一 化 方程 , 平衡 方程 组 的 
解 是 唯一 的 , 也 就 是 n 步 转移 概率 rij (mn) 的 极限 . 
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这 是 一 个 一 般 结 论 , 实际 上 可 以 证 明 平 衡 方程 组 内 的 任何 方程 都 可 以 利用 剩 下 的 式 
子 推导 出 来 . 但 是 , 我 们 知道 xj 满足 归 一 化 方程 


T1 十 Ta2 一 1， 


它 是 平衡 方程 组 的 一 个 补充 , 从 而 能 唯一 地 得 到 zj. 确切 地 , 将 方程 m = 3rs 代入 
方程 ri 十 Ta = |， 可 以 得 到 37x2 + ra = 1, 从 而 


7T2 一 0.25, 


再 将 它 代 入 TI 十 To2 二 1， 得 到 
T1 一 0.75. 


这 个 结果 和 我 们 前 面 通过 迭代 查 普 曼 - 科 尔 莫 戈 罗 夫 方 程 组 得 到 的 结果 一 致 ( 见 图 
7.6). 口 
例 7.6 ”一 位 健忘 的 教授 有 两 把 雨 企 , 用 于 上 下 班 往返 于 家 和 学 校 之 间 . 如 果 下 雨 
且 在 她 所 处 位 置 有 一 把 雨 侈 可用, 那么 她 就 会 带 上 它 . 如 果 没 有 下 雨 , 她 总 是 忘记 
带 雨 企 . 假设 每 次 她 出 门下 雨 的 概率 是 p, 且 独 立 于 其 他 时 候 . 请 问 她 在 路 上 被 淋 
湿 的 稳 态 概率 是 什么 ? 

我 们 利用 马尔 可 夫 链 建立 模型 , 假设 以 下 状态 : 


状态 i : 在 她 所 在 地 有 i 把 雨伞 可 用 ， i = 0,1,2. 
图 7.11 表示 对 应 的 转移 概率 图 , 与 这 个 模型 相应 的 转移 概率 矩阵 为 ? 


1—p 了 
门口 没有 拿 《门口 有 两 把 伞 门口 有 一 把 伞 
7.11 例 7.6 中 的 转移 概率 图 
@@ 矩阵 中 第 一 行 表示 她 出 门 时 门口 没有 伞 , 她 到 达 目 的 地 的 门口 必定 有 两 把 伞 , 因此 由 po,o = 0, po,1 一 
0, po,2 = 1, 第 二 行 表示 她 出 门 时 门口 具有 一 把 伞 , 她 以 概率 p 将 这 把 伞 带 走 ， 以 概率 为 (1 - p) 将 


伞 留 在 原 地 , 这 样 目 的 地 门口 的 状态 为 1 或 2, 相应 的 转移 概率 如 矩阵 的 第 二 行 所 示 . 总 之 , 她 所 在 地 
门口 的 全 的 把 数 形成 一 个 马尔 可 夫 链 . 译 者 注 
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这 个 马尔 可 夫 链 具有 单个 的 常 返 类 , 且 是 非 周期 的 (假设 0 < p < 1), 所 以 可 
以 利用 稳 态 收敛 定理 . 其 平衡 方程 组 是 
mo = (1 —p)n2, m1= (1— pn 十 DTr2，7T2 一 To 十 DT1， 


由 第 二 个 等 式 , 我 们 知道 ml = ra, 再 结合 第 一 个 等 式 rm = (1 一 p)xw2 和 归 一 化 方程 
mo 十 Tl 十 72 二 1, 得 到 


加 1—p 加 1 加 1 
73y’ 17 ap’ 2 9p 
根据 稳 态 收敛 定理 , 教授 发 现 自己 所 在 地 方 没有 雨伞 的 稳 态 概率 是 ro， 那 么 教授 
将 被 淋 湿 的 概率 是 ro 乘 上 下 两 的 概率 2. 口 


例 7.7 一 个 迷信 的 教授 在 一 个 具有 m 扇 门 的 环形 建筑 里 面 工作 , m 是 奇数 . 他 
绝 不 连续 两 次 打开 同一 扇 门 . 相反 , 他 以 概率 p( 或 概率 1 一 p) 以 顺 时 针 方向 (或 相 
应 地 以 道 时 针 方向 ) 打开 他 上 一 次 打开 的 相 邻 门 . 请 问 选 定 一 扇 门 将 在 未 来 一 天 被 
用 到 的 概率 ? 


4 号 门 
图 7.12 例 7.7 中 的 转移 概率 图 , m = 5 对 应 的 情况 示意 图 ， 假设 0 < p < 1, 不 难 发 现 , 选 
定 一 个 初始 状态 i, 每 一 个 状态 ; 都 可 以 在 5 步 能 达到 , 所 以 该 链 是 非 周期 的 


我 们 利用 马尔 可 夫 模 型 , 有 以 下 m 个 状态 : 
状态 i : 教授 打开 的 是 第 i 扁 门 ，i = 1,… ,mn. 
转移 概率 图 形 如 图 7.12 所 示 (图 中 m = 5). 转移 概率 矩阵 为 


0 p 0 0 ... 0 1—p 
1—p 0 p 0 ... 0 0 
0 1l1—p 0 p ... 0 0 
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假设 0 < p < 1, 该 链 有 一 个 非 周 期 的 单个 常 返 类 (验证 非 周期 性 , 我 们 选 定 一 
个 初始 状态 i, 每 一 个 状态 7 都 可 以 在 确定 的 mm 步 能 到 达 , 于 是 上 节 末 提出 的 非 周 
期 性 判定 规则 能 满足 ). 平衡 方程 组 为 


T1l 一 (1 一 2)Ta 十 DTm， 
Mi=pmi1t (1 — pmitl; 一 2 ,mC—1, 


Tm=(1 — Pm + prm-1 


注意 , 由 其 对 称 性 , 这 些 方程 组 很 好 解 , 所 有 的 门 都 具有 一 样 的 稳 态 概率 . 所 以 解 为 


确切 地 , 我 可 以 看 到 x 是 满足 平衡 方程 组 和 归 一 化 方程 的 , 所 以 它们 一 定 就 是 我 
们 所 求 的 稳 态 概率 (利用 稳 态 收敛 定理 的 唯一 性 ). 

注意 , 如 果 p = 0 或 者 p = 1, 链 也 是 只 有 单个 的 常 返 类 , 但 是 是 有 周期 的 . 在 
这 种 情况 下 , n 步 转移 概率 rij (mn) 不 会 收敛 于 某 一 个 极限 值 , 因为 门将 会 被 按照 环 
形 顺 序 使 用 ， 类 似 地 , 如 果 m 是 偶数 , 链 的 常 返 类 也 是 有 周期 的 , 因为 状态 将 可 
以 分 成 两 个 子 集 , 偶数 和 奇数 号 码 的 状态 , 并 且 满 足 从 一 个 子 集 只 能 到 达 下 一 个 子 
集 . 口 


7.3.1 “长 期 频率 解释 


概率 通常 被 解释 为 在 无 限 次 独立 重复 试验 的 事件 发 生 的 对 应 频率 . 尽管 缺乏 独 
立 重复 试验 的 那 种 独立 性 , 马尔 可 夫 链 的 稳 态 概率 也 具有 这 样 类 似 的 解释 . 

例如 , 考虑 一 个 与 机 器 相关 的 马尔 可 夫 链 . 每 天 工作 结束 的 时 候 , 机 器 有 两 种 
状态 , 正常 工作 或 出 现 故障 . 每 次 出 现 故障 时 , 就 立即 花 1 美元 进行 维修 . 我 们 应 
该 如 何 建立 模型 , 计算 长 期 的 每 天 平均 修理 费 ? 一 种 可 能 是 将 它 看 成 未 来 任意 一 天 
的 修理 费 的 均值 , 这 就 需要 计算 故障 状态 的 稳 态 概 率 . 另 一 种 方法 是 : 首先 可 以 计 
算 ”天 内 的 总 期 望花 费 . 当 n 很 大 时 , 再 除 以 n. 直觉 告诉 我 们 , 两 种 计算 方法 将 
会 得 到 一 样 的 结果 , 这 样 的 直觉 是 有 理论 根据 的 . 下 面 是 关于 稳 态 概率 的 解释 (证 
明 将 在 本 章 末 给 出 ). 


稳 态 概率 的 期 望 频率 解释 
对 于 一 个 非 周期 的 具有 单个 常 返 类 的 马尔 可 夫 链 , 状态 的 稳 态 概率 ri 满足 


Lij (7) 
nn » 


其 中 vij(n) 表示 从 状态 i 出 发 , 在 n 次 转移 中 到 达 状 态 j 的 总 次 数 的 期 望 值 . 


77 = lim 
人 下 DO 
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基于 上 述 解释 , xy 表示 状态 是 ; 的 长 期 的 期 望 频率 . 每 次 状态 ; 被 访问 了 , 则 
下 一 步 将 转移 到 状态 的 概率 是 pjs. 所 以 , 我 们 得 到 结论 zjpys 可 以 看 作 从 ; 转 
移 到 k 的 长 期 转移 概率 .” 


特定 转移 的 期 望 频率 
考虑 一 个 马尔 可 夫 链 的 mn 次 转移 , 该 链 是 从 给 定 初 始 状态 出 发 的 、 非 周期 的 ， 

生 具 有 单个 常 返 类 . 令 gjk(n) 为 在 时 间 n 内 , 从 状态 7 到 状态 的 转移 期 望 次 

数 , 那么 , 无 论 初始 状态 是 什么 , 均 有 

lim QCn) 


和 一 OO 


= TjPjEk-: 


给 出 Ty 和 TjPIk 的 频率 解释 以 后 ， 平衡 方程 组 


mm 
Tj) 二 》 MRPRj 
k=1 


就 具有 直观 的 意义 . 访问 ; 的 期 望 频率 ri 等 于 能 到 达 7 的 转移 的 期 望 频率 rupky 
的 总 和 , 也 就 是 


m 
7 一 > TEDPRI 
k=1 


小 


见 图 7.13. 


图 7.13 ”频率 意义 下 , 对 平衡 方程 组 的 解释 . 在 次 数 很 大 的 转移 中 , 我 们 认为 rspxy 表示 状态 
从 大 到 了 的 期 望 频率 ( 它 也 可 以 应 用 于 ? 到 本 身 的 转移 , 对 应 频率 为 jpj;). 这 样 
的 转移 的 期 望 频率 总 和 就 是 访问 ; 的 期 望 频率 ri 


全 事实 上 , 下 面 更 强 的 结论 也 是 成 立 的 . 对 马尔 可 夫 链 进行 一 个 概率 试验 , 产生 一 个 马尔 可 夫 链 的 无 限 
长 的 轨道 , 观测 这 个 轨道 的 到 达 状态 7 的 长 期 频率 就 是 zj, 发 生 从 状态 j 转移 到 状态 k 的 长 期 频率 
正好 是 zjpjk. 尽管 轨道 是 随机 的 , 这 些 等 式 仍然 概率 1 地 成 立 , 
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7.3.2 ” 生 灭 过 程 


一 个 生 灭 过 程 也 是 马尔 可 夫 链 . 它 的 状态 是 线性 排列 的 , 具体 地 说 , 生 灭 过 程 
的 状态 空间 为 {0, 1 … ,mj}, 且 转 移 只 发 生 在 相 邻 状态 之 间 , 或 者 状态 保持 不 变 . 实 
际 背 景 的 例子 非常 多 , 尤其 是 排队 论 . 图 7.14 表示 了 一 个 生 灭 过 程 的 一 般 结构 , 也 
介绍 了 转移 概率 的 一 般 情况 . 特别 地 ， 


bi 一 P(Xn+1 =% 十 1|X,, 一 2), (在 状态 6 “ 生 ” 的 概率 )， 
di 二 P(Xn+1 二 i 一 1|Xn 二 让， (在 状态 i“ 灭 ”的 概率 ). 


1—bo TI 一 六 一 1— bri1— dm 一 
二 由: bn_1 - 
图 7.14 生 灰 过 程 的 转移 模 率 图 


对 于 一 个 生 灭 过 程 , 平衡 方程 组 能 够 充分 地 化 简 . 我 们 重点 考察 相 邻 状态 , i 和 
i 十 1. 在 马尔 可 夫 链 的 任何 轨迹 中 , 从 i 到 ;+1 的 转移 一 定 会 跟着 一 个 从 i 十 1 到 
i 的 转移 (虽然 不 总 是 从 i+1 马上 转 到 让 后 面 这 个 转移 会 在 另 一 个 i 到 i+1 的 
转移 发 生 之 前 . 换言之 , 在 马尔 可 夫 链 的 任何 轨迹 中 , 由 i 到 i+1 的 转移 和 由 i+1 
到 i 的 转移 一 定 是 交替 出 现 的 . 所 以 , 从 i 到 ;+1 的 转移 的 期 望 频率 A;b,, 一 定 等 
于 从 i+1 到 ;的 转移 的 期 望 频率 Aitidit1. 这 就 推出 了 一 个 局 部 平衡 方程 组 ? 


Tibi = Tip1dit1, $= 0,1,.… ,mC—1. 


利用 这 个 局 部 平衡 方程 组 , 可 以 得 到 


did2 :di 


由 此 , 再 利用 归 一 化 方程 >; ri = 1, 稳 态 概率 mi 就 容易 算出 了 . 
例 7.8 (具有 反射 壁 的 随机 游 动 ) 一 个 人 在 直线 上 行走 , 每 一 个 时 刻 , 他 向 右 走 的 
概率 是 b, 向 左 走 的 概率 是 1 -b. 该 人 开始 于 位 置 1,2,… ,m 中 的 任 一 个 , 但 是 如 
果 他 到 达 位 置 0( 或 者 m + 1), 他 将 自动 返回 到 位 置 1( 或 者 对 应 的 位 置 m). 这 等 价 
于 , 我 们 假设 当 该 人 到 达 位 置 1( 或 者 m) 的 时 候 , 下 一 步 将 分 别 以 概率 1 b( 或 中 
@ 不 运用 频率 解释 法 ,也 可 以 如 下 正式 推导 .状态 0 的 平衡 方程 是 7o(1 一 b0) 十 Tidl = ro, 所 以 可 
以 推导 出 第 一 个 局 部 平衡 方程 : robo = ridi. 
状态 1 的 平衡 方程 是 Tobpo + ri(l —b1 — di)++7n2d2 一 Tl， 运用 前 一 个 状态 的 局 部 平衡 方程 


Tobo = A1d1, 可 得 zidi 十 m1(1 一 bi1 一 d1) 十 m2d2 二 zl. 化 简 可 得 rib 二 72d2. 继续 推导 下 去 , 就 可 
以 得 到 所 有 状态 的 局 部 平衡 方程 组 . 
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停留 在 原 处 , 以 概率 b 向 右 走 一 步 (或 以 概率 1 一 b 向 左 走 一 步 ). 我 们 利用 马尔 可 
夫 链 建立 模型 , 其 状态 为 1,2,… ,m. 转移 概率 图 如 图 7.15 所 示 . 


1—5b b 
b b b b 


1—5b 1—2b 1—5b 1—b 


图 7.15 例 7.8 随机 游 动 例子 的 转移 概率 图 
局 部 平衡 方程 组 为 


Tib = Rit1(l — Db), i=1,.…,m—1. 


所 以 ， Mitl = pi, 其 中 


再 利用 归 一 化 方程 1 = zi 十 … 十 rm 我 们 得 到 


1=m(l+p+.…+p™ ), 


于 是 得 到 
pi-1 . 
IT 
注意 , 如 果 p = 1( 向 左 和 向 右 的 概率 一 样 ), 那么 对 于 所 有 i 有 mi = 1/m. 口 


例 7.9 (排队 论 ) ”在 通信 网络 中 , 信号 包 到 来 后 , 被 存放 在 缓冲 器 中 然后 传输 . 组 
冲 器 的 储存 容量 是 mm: 如 果 已 经 有 m 个 信号 包 已 经 存在 缓冲 器 中 , 那么 新 到 的 信 
号 就 自动 丢失 了 . 我 们 将 时 间 切 分 成 很 小 的 部 分 , 并 且 假 设 每 个 时 间 段 , 最 多 有 一 
个 事件 发 生 (一 个 新 的 信号 包 的 到 达 或 将 已 经 存在 一 个 信号 包 传 送出 去 ), 改变 系 
统 中 信号 的 数量 . 特别 地 , 我 们 假设 每 个 时 间 段 , 只 有 以 下 事件 之 一 发 生 . 

(a) 一 个 新 的 信号 包 的 到 达 , 发 生 概率 是 5 > 0;? 

(b) 如 果 至 少 存在 一 个 信号 包 在 系统 中 , 则 传送 出 去 一 个 信号 包 , 发 生 的 概率 
是 d > 0, 否则 概率 为 0; 


@ 如 果 缓 溃 器 中 信号 包 的 个 数 为 m, 则 事件 发 生 的 概率 为 0. 一 一 译 者 注 
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(c) 没有 新 信号 到 达 , 也 没有 将 已 经 存在 的 信号 包 传送 出 去 (没有 完成 传送 任 
务 ), 如 果 当 时 在 缓冲 器 中 存在 至 少 一 个 信号 包 , 则 事件 发 生 的 概率 为 1 -5 一 d 如 
要 当时 在 缓冲 器 中 没有 信号 包 , 则 事件 发 生 的 概率 为 1 一 六 

我 们 建立 一 个 马尔 可 夫 链 , 其 状态 空间 为 0,1,… ,m, 这 些 状 态 表 示 缓 冲 器 中 
信号 包 的 个 数 . 转移 概率 图 如 图 7.16 所 示 . 转移 概率 图 能 够 更 加 明晰 地 表达 这 种 
状态 的 转移 关系 . 


1—b~d 1—b—d 


从 人 ， ; ( 
人 
d d d 


d 
图 7.16 例 7.9 的 转移 概率 图 


局 部 平衡 方程 组 为 
Mib= Ard, i=0,1,..….,m—1. 
我 们 定义 ; 
p= 7; 
可 以 得 到 mi+l = pri, 从 而 推出 
Ti= pino, t=0,1,...,m. 


通过 应 用 归 一 化 方程 1 = no 十 zn 十 … 十 tm, 我们 可 以 得 到 
1 = xo(l 十 p 十 …: 十 p™)， 
以 及 


1 
一 一 一 ， =1. 
m+ 二 +l1 车 p 


再 利用 等 式 mi = pino, 稳 态 概率 为 


1l—p 
Ni -| IT 一 DerfTO， 车 p #1 


l1—p 
-| 工 二 pm+l， 着 p #1， 


1 
m+1’ 
当 缓 冲 器 容量 m 很 大 , 实际 中 可 以 认为 无 穷 的 时 候 , 看 看 会 发 生 什 么 很 有 趣 
的 事情 . 我 们 分 两 种 情况 . 
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(a) 假设 5 < d 或 者 p < 1. 在 这 种 情况 下 , 新 信号 到 达 的 概率 小 于 缓冲 器 中 信 
号 离开 的 概率 . 这 就 避免 了 缓冲 器 中 信号 数量 的 增加 , 并 且 稳 态 概率 ri; 随 着 i 增 大 
而 减少 , 其 分 布 列 为 截 尾 型 的 几何 分 布 . 注意 到 当 m 一 co, 有 1- p"t! 一 1 以 及 


mi 一 pi(1 一 p)， 对 于 所 有 的 i. 


我 们 可 以 把 它 看 成 是 具有 无 限 个 缓冲 器 的 系统 的 稳 态 概率 . [验证 时 , 注意 到 > ?2o pi 
(1—p)=1| 
(b) 假设 5 > qd, 或 者 p > 1. 这 种 情况 下 , 新 信号 到 达 的 可 能 性 大 于 缓冲 器 中 
信和 号 离开 的 可 能 性 . 缓冲 器 中 信和 号 的 数量 趋 近 于 增加 , 并 且 稳 态 概率 mi 随 着 i 增 
大 而 增加 . 由 于 我 们 考虑 的 缓冲 器 具有 很 大 的 容量 m, 任何 状态 i 的 稳 态 概率 都 是 
逐渐 趋 近 于 0 的 : 
Ti 一 0, 对 于 所 有 的 i 


如 果 我 们 考虑 系统 具有 无 限 个 缓冲 器 , 我 们 将 得 到 一 个 具有 可 数 无 穷 多 个 状态 的 马 
尔 可 夫 链 . 尽管 我 们 不 讨论 这 样 的 链 , 但 是 根据 前 面 的 计算 , 我 们 知道 每 一 个 状态 
都 具有 零 的 稳 态 概率 , 每 个 状态 将 是 非常 返 的 . 缓冲 器 中 的 信号 的 个 数 将 增加 到 无 
穷 多 个 , 并 且 任何 特别 的 状态 都 只 能 被 访问 有 限 次 数 . 口 

前 面 的 分 析 对 具有 可 数 无 穷 多 个 状态 的 马尔 可 夫 链 的 性 质 有 了 一 个 大 致 的 了 
解 . 在 这 种 马尔 可 夫 链 中 , 即使 是 只 有 一 个 非 周期 的 常 返 类 , 链 的 状态 也 不 会 是 稳 
态 , 也 不 会 有 平稳 概率 分 布 存 在 . 


7.4 ”吸收 概率 和 吸收 的 期 望 时 间 


在 本 节 中 , 我 们 将 学 习 马 尔 可 夫 链 的 短期 行为 . 首先 , 考虑 开始 于 非常 返 状 态 
的 情形 , 我 们 感 兴趣 的 是 首次 访问 常 返 态 的 分 布 以 及 对 应 的 到 达 时 间 的 分 布 . 

当 我 们 讨论 这 个 问题 的 时 候 , 马尔 可 夫 链 的 后 续 行为 (到 达 常 返 态 之 后 ) 是 不 
重要 的 . 所 以 我 们 重点 讨论 每 一 个 常 返 态 为 吸收 的 , 也 就 是 


pk 二 1， pxj 二 0 对 于 所 有 的 j 六. 


如 果 只 有 唯一 的 一 个 吸收 态 , 那么 它 的 稳 态 概率 为 1( 因 为 其 他 所 有 的 状态 都 是 非 
常 返 的 , 并 且 其 稳 态 概率 都 是 0)， 从 任何 一 个 初始 的 非常 返 状 态 出 发 , 将 以 概率 1 
达到 这 个 吸收 状态 . 如 果 有 多 个 吸收 状态 , 那么 经 过 若干 步 的 转移 , 这 个 状态 最 后 
终 将 到 达 某 个 吸收 态 . 但 是 具体 到 达 哪 一 个 吸收 态 , 这 是 随机 的 , 并 且 到 达 各 吸收 
态 的 概率 分 布依 赖 于 初始 状态 . 现在 我 们 固定 一 个 吸收 态 , 设 为 s, 令 ai 表示 链 从 
状态 i 开始 , 最 终 达到 s 的 概率 : 


ai 二 P(Xn 最 终 等 于 吸收 状态 s|Xo = 汉 . 
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这 个 概率 称 为 吸收 概率 . 该 吸收 概率 可 以 通过 解 以 下 线性 方程 组 得 到 . 


吸收 概率 方程 组 
考虑 一 个 马尔 可 夫 链 , 它 的 每 一 个 状态 或 者 是 非常 返 的 , 或 者 是 吸收 的 , 并 固 
定 一 个 吸收 状态 s. 那么 从 状态 i 开始 , 最 终 达 到 s 的 概率 a; 是 下 列 方 程 组 的 叭 


一 解 : 
Qs = 1, 
i= 0， 对 于 所 有 吸收 状态 i 关 s， 
oa = 》、pijaj， 对 于 所 有 非常 返 状态 i. 
j=1 


由 吸收 概率 的 定义 , 很 明显 得 到 方程 组 a。= 1 以 及 对 于 所 有 吸收 状态 i 六 s， 
ai = 0. 为 了 证 明 剩 下 的 方程 组 , 我 们 接 下 来 讨论 . 考 虚 一 个 非常 返 状态 i, 令 4 表 
示 状 态 s 最 终 被 达到 的 事件 . 我 们 有 


Qi =P(A|Xo 一 i) 


P(A4IXo = Xi 二)P(Xs 一 jlXo = (全 概率 公式 ) 


关于 吸收 概率 方程 组 的 解 的 唯一 性 需要 单独 的 证 明 , 将 在 本 章 末 的 习题 中 给 出 . 

接 下 来 的 例子 将 阐述 我 们 如 何 利用 前 面 所 述 的 方法 计算 进入 给 定常 返 态 的 概 
率 (并 非 仅仅 是 进入 给 定 吸 收 状态 ). 
例 7.10 ”考虑 如 图 7.17a 所 示 的 马尔 可 夫 链 . 注意 这 里 具有 两 个 常 返 类 , 分 别 是 
{1} 和 {4,5}. 我 们 计算 开始 于 一 个 非常 返 状 态 , 最 终 进入 常 返 类 {4,5} 的 概率 . 为 
了 解决 这 个 问题 , 考虑 常 返 类 {4,5} 内 的 可 能 转移 不 是 实质 性 的 . 所 以 我 们 将 该 常 
返 类 的 状态 整合 , 把 它们 看 成 单个 的 吸收 状态 ( 称 之 为 状态 6), 参见 图 7.17b. 现在 
只 需 计 算 新 链 中 , 最 终 进 入 状态 6 的 概率 . 

从 非常 返 状态 2 和 3, 最 终 达 到 6 的 概率 满足 以 下 方程 组 ， 


a2 = 0.20a1 十 0.3a2 十 0.4as 十 0.1a6， 
a3 = 0.2a2 十 0.8a6. 


利用 事实 ol = 0 和 a6 = 1, 我 们 得 到 
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7.17 (a) 例 7.10 的 转移 概率 图 ; (b) 将 状态 4, 5 整合 成 吸收 状态 6 的 新 链 


aa = 0.3a2 十 0.4as 十 0.1， 
a3 = 0.2ao2 + 0.8. 


这 是 关于 未 知 数 oa 和 aa 的 二 元 一 次 方程 组 . 求解 得 到 aa = 21/31 及 aa = 29/31. 
口 

例 7.11 ( 赌 徒 的 破产 问题 ) ”一 个 赌 徒 每 局 赌博 以 概率 p 赢 1 美元 , 同时 以 概率 
1 一 p 输 掉 1 美元 . 假设 不 同 赌局 之 间 是 相互 独立 的 . 赌 徒 会 一 直 赌 博 直 到 资金 到 
达 某 个 目标 总 数 m 时 , 或 者 输 掉 全 部 的 钱 . 请 问 最 终 资金 能 到 达 目 标 m 或 者 输 掉 
他 全 部 资金 的 概率 是 多 少 ? 

我 们 建立 马尔 可 夫 链 , 参见 图 7.18, 它 的 状态 i 表示 每 次 赌局 开始 时 , 赌 徒 的 
资金 . 状态 i=0 和 ;= m 分 别 表示 最 终 输 和 赢 . 

除了 最 终 输 和 赢 的 状态 是 吸收 的 , 其 余 状 态 都 是 非常 返 的 . 所 以 , 问题 转变 成 
了 对 应 计算 每 个 吸收 态 的 吸收 概率 . 当然 , 这 些 吸 收 概率 会 依赖 于 初始 状态 站 的 选 
取 . 


1 P 了 1 
卫 
CD-Gm TCD 一 Cr 
输 ? 1—p 工 一 了 赢 
图 7.18” 赌 徒 的 破产 例子 ( 例 7.11) 的 转移 概率 图 , 这 里 m = 4 
我 们 令 s = m, 且 吸 收 概率 ai 表示 从 状态 i 出 发 , 最 终 赢 的 概率 . 那么 这 些 概 
率 满足 
CQ0 一 0， 
ai 一 (1 一 D)ai 1l 十 DaiT1，1 一 1 7mn 一 |， 


am 一 |. 
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这 些 方 程 组 可 以 通过 很 多 种 方法 来 求解 . 下面 我 们 利用 一 种 比较 简单 的 方法 解 该 
方程 组 . 
对 于 每 个 o;, 我 们 有 


(1—PD(ai— 0i1)= pait1— 0), i=1,.…,m—1. 


那么 , 令 
0i = Qit1 — Qi, i 二 0,...…,m—1, 
以 及 
1-p 

p= p » 

从 而 方程 组 转变 成 
6i = p60i_1, 4 一 1 一] 

由 此 , 可 得 


6; = pi6o, i 二 1,..……,m—1. 
于 是 结合 等 式 bo 十 51 十 … 十 6m-1 一 Qam 一 00 二 1, 可 得 


(1+p++p™ )go 一 1 
也 就 是 
-I 
因为 oo = 0 以 及 aiti = ai + 6, 从 一 个 状态 i 出 发 ,最终 赢 的 概率 a; 是 


60 


ai 一 0 十 0 十 … 十 bi-1 
=(1+p+...+p')6o 

1+p+...+p*! 

1 十 p 十 . .十 pm-1l 


化 简 得 
1—p 
? 若 1, 
wd im pz 
2 
m’ 车 p = 1. 


结果 揭示 了 , 如 果 p > 1, 也 就 是 p < 1/2, 对 于 赌 徒 每 次 赢 的 概率 相对 小 , 那么 
最 终 赢 的 概率 , 不 管 初始 资金 是 多 少 , 随 m 一 co 趋 近 于 0, 这 就 表明 , 如 果 我 们 在 
不 理想 的 概率 下 (每 次 赢 的 概率 小 于 输 的 概率 ), 想 赢 取 更 大 的 资金 , 最 终 完全 破产 
是 几乎 一 定 的 . 口 
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7.4.1 “平均 吸收 时 间 
现在 我 们 转 而 关注 从 一 个 特定 的 非常 返 状 态 出 发 , 直到 到 达 一 个 常 返 状态 (我 
们 称 为 “吸收 ”) 的 平均 步 数 . 对 于 任何 一 个 i, 我 们 定义 
Li 二 EB[ 从 状态 i 开始 , 直到 达到 吸收 态 所 需 的 步 数 ] 
二 Elmin{n > 0|X 常 返 态 }|Xo 一 计 . 


注意 , 如 果 i 本 身 为 常 返 态 , 那么 根据 定义 m = 0. 

我 们 利用 全 期 望 定理 得 到 关于 ji 的 方程 组 . 从 一 个 非常 返 状 态 i 出 发 直到 进 
入 吸收 状态 所 需 的 时 间 的 期 望 值 等 于 1 加 上 从 下 一 个 状态 j 出 发 直到 进入 吸收 状 
态 所 需 的 时 间 的 期 望 值 的 加 权 平 均 , 而 权 值 刚好 是 由 i 到 下 一 个 状态 ; 的 概率 pij. 
于 是 我 们 得 到 一 个 线性 方程 组 , 可 以 证 明 , 这 个 线性 方程 组 具有 唯一 的 解 (参见 本 
章 末 的 习题 33). 


平均 吸收 时 间 方 程 组 
平均 吸收 时 间 后，… ,AUm 是 下 列 方程 组 的 唯一 解 


Hi =0, 对 于 所 有 的 常 返 状态 冤 
Hi =1+ > pij1j 对 于 所 有 的 非常 返 状态 区 
了 一 1 


例 7.12 ( 蜂 蛛 和 苍蝇 ) ”考虑 例 7.2. 中 的 蜘蛛 和 蔡 蝇 的 模型 , 它 对 应 图 7.19 中 的 
马尔 可 夫 链 . 状态 对 应 苍蝇 可 能 的 位 置 , 吸收 状态 1 和 状态 m 表示 蜘蛛 对 苍蝇 的 
捕捉 . 

接 下 来 我 们 计算 苍蝇 被 捕 提 的 平均 步 数 . 我 们 有 


MI = km = 0, 
以 及 
Wi = 二 1 十 0.3p_1 十 0.4pi 十 0.34s41， 当 i 二 2,.…,m 一 1. 
解 这 个 方程 组 有 很 多 方法 , 例如 通过 依次 迭代 法 . 现在 我 们 详细 阐述 , 令 m = 4, 方 
程 组 可 以 简化 为 


H2 一 工 十 0.4H12 十 0.3HU3， Ha = 1+0.3n2 + 0.4ns. 


第 一 个 方程 得 出 wo = (1/0.6) 上 + (1/2)ua, 我 们 将 其 代入 第 二 个 方程 可 解 得 1a. 我 们 
得 到 ns = 10/3, 再 次 代入 第 一 个 方程 得 12 = 10/3. 
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0.4 0.4 0.4 0.4 
0.3 03 03 ga 人 
KO mm Ope ams nO 
0.3 0.3 0.3 
TPR、 ERS 
图 7.19 例 7.12 中 的 转移 概率 图 


7.4.2 ”平均 首 访 时 间 及 回访 时 间 


用 于 计算 平均 吸收 时 间 的 想法 也 可 以 用 于 计算 开始 于 任何 其 他 状态 , 到 达 某 特 
定常 返 状态 的 平均 时 间 . 为 了 简化 , 我 们 只 考虑 只 有 单个 常 返 类 的 马尔 可 夫 链 . 我 
们 着 眼 于 一 个 特定 的 常 返 态 s, 并 令 所 表示 从 状态 i 到 状态 s 的 平均 首 访 时 间 , 定 
义 为 

志 = 卫 [从 状态 i 开始 , 首次 达到 状态 s 的 转移 步 数 ] 
=E[lmin{n > 0|X», = s}Xo = 4. 


到 达 状 态 。 之 后 的 转移 和 计算 平均 首 访 时 间 是 没有 关系 的 . 所以, 我 们 将 特殊 
状态 s 看 成 一 个 吸收 状态 ( 设 定 ps = 1 psi = 0 对 于 所 有 的 了 六 s.), 新 的 马尔 可 夫 
链 本 质 上 是 和 原来 一 致 的 ， 通 过 这 个 转化 , 除了 。 外 的 所 有 状态 都 是 非常 返 的 了 . 
于 是 我 们 利用 本 节 前 面 给 出 的 公式 , 计算 时 间 二 相当 于 计算 从 状态 ;出 发 被 吸收 
的 平均 步 数 . 我 们 有 

=1+ pst， 对 于 所 有 的 i 六， 

;二 1 

ts 一 0. 

该 线性 方程 组 能 用 于 解 未 知 的 ti 并 且 只 有 唯一 的 解 (参见 本 章 未 的 习题 ) 


上 述 方程 组 给 出 了 从 任何 其 他 状态 开始 , 到 达 特 殊 状 态 s 的 平均 时 间 . 我 们 也 
可 以 计算 到 达 特 殊 状态 s 的 平均 回访 时 间 , 定义 为 


万 = 卫 [从 状态 s 开始 , 首次 回 到 状态 s 的 转移 步 数 ] 
=Elmin{n 2 1|X,, = s}HXo = s]. 


只 要 我 们 具有 首次 访问 时 间 妨 , 就 可 以 通过 以 下 方程 组 得 到 万 ， 


7 
丰 一 工 十 psty. 
j=1 
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为 了 验证 该 等 式 , 我 们 说 从 状态 s 开始 , 回 到 状态 s 的 平均 时 间 等 于 1 加 上 从 
下 一 个 状态 出 发 到 达 状 态 s 的 平均 首 访 时 间 , 链 处 于 下 一 个 状态 了 的 概率 为 ps;. 
利用 全 期 望 定理 即 可 得 到 世 的 公式 . 
例 7.13 ”考虑 例 7.1 中 爱丽 丝 听课 的 两 种 状态 “进步 ”和 “落后 ”, 指出 她 的 状态 
形成 一 个 马尔 可 夫 链 , 状态 1 和 状态 2 分 别 对 应 进步 和 落后 , 且 转 移 概 率 为 


p11 = 0.8,， p12 = 0.2, 
p21 = 0.6， p22 = 0.4. 
我 们 着 眼 于 状态 s = 1, 计算 从 状态 2 开始 到 达 状 态 1 的 平均 首 访 时 间 . 我 们 


有 ti 一 0， 以 及 
to = 1++ pa2iti + p22t2 = 1+0.4t,, 
由 此 
li 
2 06 3- 
到 达 状 态 1 的 平均 回访 时 间 等 于 
人 =1+puti+pity =1+0+02.3 = 口 
平均 首 访 时 间 和 回访 时 间 方 程 组 
考虑 只 有 单个 常 返 类 的 马尔 可 夫 链 , 令 s 为 特殊 的 常 返 状态 . 
。 从 状态 i 到 状态 s 的 平均 首 访 时 间 tt, 是 下 列 方程 组 的 唯一 解 


ts = 0, t=1+ pit 对 于 所 有 的 i 关 s， 
j=1 


。 状态 s 的 平均 回访 时 间 万 为 


mm 
=1+》 pt 
j=1 


7.5 ”连续 时 间 的 马尔 可 夫 链 


前 面 所 考虑 的 马尔 可 夫 链 中 , 我 们 假设 状态 的 转移 都 是 在 单位 时 间 内 发 生 的 . 
本 节 将 考虑 一 类 有 关 的 连续 性 时 间 的 模型 , 它 能 被 用 于 很 多 按照 连续 性 时 间 到 达 的 
过 程 . 例子 是 通信 网 络 中 的 分 布 中 心 或 结 点 , 其 中 感 兴趣 的 事件 (例如 , 新 信号 的 到 
达 ) 是 按照 泊 松 过 程 到 达 的 . 
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与 前 面 类 似 ， 我 们 将 考虑 一 个 过 程 ， 它 按照 一 定 的 转移 概率 从 一 个 状态 转移 
到 下 一 个 状态 , 但 是 我 们 令 两 次 转移 之 间 的 时 间 是 一 个 连续 随机 变量 .我 们 依旧 
假设 状态 的 个 数 是 有 限 的 , 并 且 在 不 特别 指明 的 情况 下 , 设 状态 空间 是 集合 § = 
1 
为 了 进一步 介绍 该 过 程 , 我 们 引入 以 下 感 兴趣 的 随机 变量 . 
Xn :第 7 次 转移 后 的 状态 ; 
:第 n 次 转移 的 时 间 ; 
T%: 第 n 一 1 次 转移 和 第 n 次 转移 的 间隔 时 间 . 
为 完整 起 见 , 我 们 假设 Xo 表示 初始 状态 , 且 令 Yo = 0. 我 们 给 出 以 下 假设 . 
连续 性 时 间 马 尔 可 夫 链 的 假设 


。 如 果 当 前 状态 是 i, 到 下 一 个 转移 的 时 间 服 从 已 给 参数 vi 的 指数 分 布 , 且 
独立 于 之 前 的 历史 过 程 和 下 一 个 状态 . 


。 如 果 当 前 状态 是 i, 按照 给 定 的 概率 piy 到 达 下 一 个 状态 j, 而 且 独 立 于 之 
前 的 历史 过 程 和 转移 到 下 一 个 状态 的 时 间 间 隔 . 


上 述 假 设 是 该 过 程 的 一 个 完整 的 描述 , 并 提供 一 种 清晰 的 方法 来 解释 它 : 链 进 
入 状态 i, 在 状态 i 停留 , 停留 时 间 是 按照 参数 为 v; 的 指数 分 布 , 然后 再 以 转移 概 
率 pi 到 达 状 态 7. 一 个 直接 的 结果 是 , 状态 序列 X 在 经 过 依次 转移 后 , 成 为 了 一 
个 高 散 时 间 的 马尔 可 夫 链 , 其 转移 概率 是 pij, 该 链 称 为 嵌入 的 马尔 可 夫 链 . 

数学 形式 上 , 我 们 的 假设 可 以 用 公式 来 表达 . 令 


A= {Ti 二 要 ,Tn = tn, Xo 一 i0, ,nl = in_1, Xn 一 针 
为 直到 第 ”次 转移 发 生 之 前 , 链 所 有 发 生 的 事件 . 我 们 有 


P(Xn+1 =jTntl > #4) =P(Xn+1 二 j,Tnt1 之 t|X, 一 i) 
=P(Xnt1 = jlXn = iP(Tnt1 > tlXn = 0) 
二 psye “+， 对 于 所 有 t > 0. 
到 下 一 个 转移 的 平均 时 间 为 
， >, 1 
E[Ty ri| Xn 二 外 -/ TUie viT dr = 一 ， 
0 Di 


了 


所 以 我 们 可 以 认为 wu 是 停留 在 状态 i 的 单位 时 间 上 , 转移 出 状态 i 的 平均 转移 次 
数 . 于 是 , 参数 zx 称 为 跳出 状态 i 的 转移 速率 . 因为 pij 表示 从 状态 i 转移 到 状态 
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ij 的 概率 , 所 以 
ij; 一 ViDij 


表示 停留 在 状态 i 的 单位 时 间 上 , 从 状态 i 到 状态 ; 的 平均 转移 次 数 . 从 而 , 我 们 
称 qij 为 从 状态 i 到 了 的 转移 速率 . 注意 , 给 定 转移 速率 g;;, 我 们 就 可 以 通过 下 列 
公式 计算 转移 速率 v;， 


Tn 
Vi 二 》 Gdi7， 
j=1 


并 利用 下 列 公式 计算 转移 概率 ， 


注意 , 模型 可 能 发 生 自身 转移 , 就 是 从 一 个 状态 出 发 又 回 到 该 状态 . 当 自身 转 
移 概率 pi; 不 为 0 时 , 自身 转移 就 会 发 生 . 但 是 , 这 样 的 自身 转移 没有 观察 的 意义 : 
因为 指数 分 布 的 无 记忆 性 , 直到 下 一 个 转移 剩余 的 时 间 是 一 样 的 , 不 论 自身 转移 发 
生 与 否 . 由 于 这 个 原因 , 我 们 忽略 自身 转移 , 从 而 假设 


pi = qi 二 0， 对 于 所 有 的 i. 


例 7.14 一 台 运 转 中 的 机 器 会 一 直 工 作 , 直到 警告 信号 产生 .从 开始 工作 一 直到 
产生 警告 信号 的 时 间 服 从 参数 为 1 的 指数 分 布 . 产生 警告 之 后 , 机 器 将 被 检修 , 检 
修 的 时 间 服 从 参数 为 5 的 指数 分 布 . 检修 结果 以 1/2 的 概率 将 机 器 维修 好 , 此 时 机 
器 将 恢复 正常 生产 ; 而 另 一 个 可 能 的 结果 是 机 器 已 经 损坏 ( 概率 为 1/2), 机 器 将 送 
去 修理 . 修理 时 间 服 从 参数 为 3 的 指数 分 布 . 我 们 假设 前 面 提 到 的 随机 变量 都 是 相 
互 独立 的 , 且 独 立 于 检修 结果 . 

令 状态 1,2, 3 分 别 表 示 正 常 工 作 , 检验 和 修理 .转移 速率 是 v1 = 1,v = 5， 
vs 二 3. 转移 概率 矩阵 和 转移 速率 矩阵 表示 如 下 


0 1 0 0 1 0 
P=| 1/2 0 1/2 |， Q= | 5/2 0 5/2 
1 0 0 3 0 0 

具体 解释 可 以 参见 图 7.20. 口 


Q@ 如 果 转 移 怡 好 发 生 在 时 刻 t, 记号 和 人 的 定义 有 些 不 清楚 . 通常 的 做 法 是 令 和 人) 为 恰好 发 生 转 移 
之 后 的 状态 , 这 时 , X(Y%) 就 是 Xn. 
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我 们 最 终 发 现 前 面 定义 的 连续 时 间 的 马尔 可 夫 
链 具有 和 离散 时 间 马 尔 可 夫 链 类 似 的 马尔 可 夫 性 质 : 
在 给 定 当前 的 状态 下 , 未 来 独立 于 过 去 . 为 了 进一步 
认识 该 性 质 , 定义 X(t) 表示 连续 时 间 马 尔 可 夫 链 在 
时 间 t > 0 的 状态 , 且 注 意 它 在 两 次 转移 之 间 ” 将 
停留 一 段 时 间 ， 利 用 指数 分 布 的 无 记忆 性 ， 可 以 推 
出 , 对 于 第 ”次 转移 时 间 Y, 和 第 n +1 次 转移 时 间 
Yn+1 之 间 的 任意 时 刻 t, 直到 下 一 个 转移 发 生 的 剩余 ”图 7.20 例 7.14 中 马尔 可 


时 间 区 +1 一 上 独立 于 系统 已 经 在 目前 状态 所 停留 的 夫 链 的 阐述 ， 弧 线 
时 间 一 Y. 进一步 推出 , 对 于 任意 时 刻 t, 和 给 定 当 附近 的 数据 表示 转 
前 的 状态 X(t), 过 程 的 未 来 [随机 变量 X(r),r > 4， 移 速率 qi 


独立 于 过 去 [随机 变量 X(r),r < 4. 
7.5.1 ”利用 离散 时 间 马 尔 可 夫 链 的 近似 
我 们 来 阐述 连续 时 间 马 尔 可 夫 链 和 对 应 离散 时 间 形 式 的 联系 . 这 个 联系 给 出 了 
连续 时 间 马 尔 可 夫 链 的 另 一 种 描述 , 以 及 表示 稳 态 行为 的 平衡 方程 组 . 
取 定 一 个 小 的 正 数 5, 考虑 离散 时 间 马 尔 可 夫 链 2 , 它 是 每 隔 一 小 段 时 间 5 观 
察 X(t) 所 得 到 的 
Zn = X(n6), n=0,1,... 


实际 上 , 根据 X(t) 的 马尔 可 夫 性 质 , 可 知 2 是 一 个 马尔 可 夫 链 (给 定 当前 状态 的 
前 提 下 , 未 来 独立 于 过 去 ). 我 们 利用 记号 5; 表示 Zi 的 转移 概率 . 

给 定 状态 2 = i, 则 时 刻 n6 和 (n 十 1)6 之 间 发 生 转 移 的 概率 近似 等 于 v6. 进 
一 步 地 , 概率 piy 表示 转移 到 下 一 个 的 状态 是 j. 所 以 


Di; = P(Znt1 = j|2Zn = 1) = vipij6 + 0(0) = qij6 + o(86)， 如 果 j 


其 中 o(5) 表示 随 5 变 小 时 的 无 穷 小 量 . 停留 在 状态 i 的 概率 是 [也 就 是 , 在 时 刻 n6 
和 (+1)6 之 间 没 有 发 生 转 移 ] 


Bis =P(Znt1 =ilZn =6)=1— > 页 让 
JI#1 


下 面 给 出 连续 时 间 马 尔 可 夫 链 的 另 一 种 描述 .? 


Q 到 目前 为 止 , 我 们 已 经 证 明 一 个 连续 时 间 的 马尔 可 夫 链 满足 这 些 性 质 ， 相反 ， 起 下 使用 这 
种 描述 方法 , 可 以 证 明 : 直到 从 状态 i 发 生 转 移 所 需要 的 时 间 是 指数 分 布 , 参数 是 v = 3; gi: 
步 , 在 这 种 转移 已 经 发 生 的 事实 条 件 下 , 转移 到 状态 ? 的 概率 是 qij /vi = piy. 这 这 丰 和 了 和 这 方 
法 与 原始 的 方法 描述 的 马尔 可 夫 链 是 一 样 的 . 
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连续 时 间 马 尔 可 夫 链 的 另 一 种 描述 方法 
给 定 连续 时 间 马 尔 可 夫 链 的 当前 状态 多 对 于 任何 7 去 i 单位 时 间 5 之 后 的 


状态 是 了 的 概率 是 
dij0 十 o(5), 


且 独 立 于 过 程 过 去 的 情况 . 
例 7.14( 续 ) 忽略 o(6) 项 , 对 应 的 马尔 可 夫 链 2 的 转移 概率 矩阵 为 


1-6 4 0 
56/2 1--56 56/2 |. 口 


36 0 1—36 


例 7.15 (排队 论 ) “在 一 个 通信 系统 中 到 达 缓 神器 的 信号 包 的 过 程 是 一 个 参数 为 和 
的 泊 松 过 程 . 信号 存放 在 容积 为 m 的 缓冲 器 里 , 且 每 次 只 传输 一 个 信号 . 但是, 如 
果 缓 冲 器 里 面 的 信号 已 满 , 新 来 的 信号 就 会 丢失 . 传输 一 个 信号 需要 的 时 间 服从 参 
数 为 p 的 指数 分 布 . 不 同 信号 之 间 的 传输 时 间 是 相互 独立 的 , 也 独立 于 所 有 间隔 时 
间 . 

我 们 将 利用 连续 时 间 马 尔 可 夫 链 对 该 系统 建 模 , 状态 是 X(t) 表示 t 时 刻 对 应 
系统 中 的 信号 数量 [如 果 X(t) > 0, 那么 外 (t) -1 表示 队列 中 等 待 的 信号 数量 , 有 
一 个 信号 正在 被 传输 ]. 当 新 信号 达到 , 状态 将 增加 1; 当 已 存 信号 被 传输 , 状态 将 减 
少 1. 为 了 证 明 X(t) 确实 是 一 个 马尔 可 夫 链 , 我 们 利用 马尔 可 夫 过 程 的 另 一 种 描 
述 性 定义 , 并 且 同 时 给 出 转移 速率 q;;. 

首先 考虑 系统 中 为 空 的 情况 , 也 就 是 状态 X(#) 为 0 的 情况 . 从 状态 0 的 转移 
只 有 当 新 信号 到 达 才 能 发 生 , 在 这 种 情况 下 , 状态 变 成 了 1. 因为 信号 的 到 来 是 一 
个 泊 松 过 程 , 所 以 有 


P(X(E+6)=1X() =0) = M+o(6), 


和 和， 如 果 7 = 1， 
do07 二 
0， ”否则 . 


接 下 来 , 考虑 系统 中 信号 满 的 情况 , 也 就 是 状态 X(t) 为 m 的 情况 . 状态 m 的 
转移 只 有 当 现 有 的 一 个 信号 完成 传输 才能 发 生 , 传输 完成 后 状态 变 成 了 m 一 1. 因 
为 传输 所 用 的 时 间 服 从 指数 分 布 (具有 无 记忆 性 ), 所 以 有 


P(X(G+46) =m— 1X() = m) = 5 + 0(6), 
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以 及 


1 若 ; 一 ?一 了 
dmj 二 
0， ”其 他 . 


最 后 , 考虑 系统 状态 X(t) 等 于 某 个 中 间 状态 i, 0 < i < m. 在 下 一 个 单位 时 间 
5 中 , 新 信号 到 来 的 概率 是 X6 + o(6), 使 得 状态 变 成 了 ;+ 1, 完成 一 个 信号 的 传输 
的 概率 是 5 +o(5), 使 得 状态 变 成 了 i 1.[ 在 时 间 间 隔 5 中 同时 有 新 信号 到 来 和 已 
有 信号 的 传输 完成 的 概率 是 与 52 同 阶 的 , 所 以 可 以 被 忽略 , of5) 的 其 他 形式 的 情 
况 也 类 似 处 理 ] 所 以 


P(X(t+6)=i— 1|X(t) =i) = 16 +0(6), 


P(X(t+6) =i+1X(t) =1i) = XM +o0(6), 


以 及 
和 ， ”车 i = i+1， 
9 二 4 jp， 若 i = 11， 对 于 所 有 的 i =1,2,…,m 一 1; 
0， ”其 他 ， 
参见 图 7.21. 口 
入 @ 入 入 入 
pt 及 在 hp 
图 7.21 例 7.15 中 的 转移 图 
7.5.2 ” 稳 态 性 质 


现在 我 们 把 注意 力 放 在 连续 时 间 马 尔 可 夫 链 的 长 期 行为 上 , 重点 在 计算 当时 间 
t 不 断 增 大 时 , 停留 在 状态 i 的 概率 P(X(t) = 让 的 极限 情况 . 我 们 通过 研究 对 应 的 
离散 时 间 马 尔 可 夫 链 2 的 稳 态 概率 , 来 解决 该 问题 . 
因为 2 = X(n6), 很 显然 如 果 P(Zn = 让 2o = 引 的 极限 x; 存在 的 话 , 必 等 于 
P(X() = jlX(0) = 的 极限 . 所 以 我 们 只 需 考虑 2 的 稳 态 概率 . 因为 是 在 离散 时 
间 链 里 , 我 们 知道 因为 稳 态 概率 是 独立 于 初始 状态 的 , 所 以 我 们 只 需 假 定 链 2, 只 
有 一 个 常 返 类 . 我 们 也 注意 到 马尔 可 夫 链 2 一 定 是 非 周 期 的 . 这 是 因为 自身 转移 
概率 为 
有 一 1 一 6》 gq +o(6), 
j¥i 
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当 5 很 小 时 , 这 个 概率 为 正 数 . 而 具有 非 零 自身 转移 概率 的 链 总 是 非 周期 的 . 
链 Zu 的 平衡 方程 组 有 以 下 形式 


m = 》 rpBky， 对 于 所 有 的 ;, 
k=1 
或 者 


Tj = Djy + ,TPEy 
kA 


=7y ( 一 6》 9 十 | 十 》， Tk{(gk76 + 0(6)). 
kj ki 
我 们 合并 方程 两 边关 于 x; 的 等 式 , 再 除 以 5, 最 后 计算 当 5 趋 于 0 时 的 极限 , 我 们 
得 到 平衡 方程 组 为 
Ts Dg 二 rkqgpy. 


hi kj 
我 们 现在 可 以 给 出 如 下 链 2 的 稳 态 收敛 定理 . 


稳 态 收敛 定理 
考虑 一 个 具有 单个 常 返 类 的 连续 时 间 马 尔 可 夫 链 . 那么 , 状态 了 以 及 对 应 的 
稳 态 概率 ri 具有 如 下 性 质 . 
(a) 对 于 每 个 j, 我 们 有 
im P(X(#) =j|X(0) = 引 =7j， 对 于 所 有 的 i 


(b) zi 是 下 列 方程 组 的 唯一 解 


Tj Yjk = > Ak, j=1,.…,m, 


RFi zj 


m 
1 = mk. 
k=1 


ij > 0， ”对 于 所 有 的 常 返 态 / 


为 了 进一步 阐述 平衡 方程 组 , 我 们 把 r; 看 成 过 程 花费 在 状态 ; 上 的 时 间 平 均 
长 期 频率 . 那么 rkgui 就 可 以 看 成 从 天 到 的 转移 的 平均 频率 (单位 时 间 内 , 转移 
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从 到; 的 平均 次 数 ). 所 以 平衡 方程 的 本 质 就 是 从 状态 ; 开始 的 转移 的 频率 ( 方 
程 的 左边 my 并 xi qjx) 等 于 进入 状态 7 的 转移 的 频率 (方程 的 右边 开 ，。， mkguy) 
例 7.14( 续 ) ”该 例子 的 平衡 方程 组 和 归 一 化 方程 为 

A1 一 Sr 十 37r3，57ro 二 XT1，373 一 2 


上 一 TFl 十 Tr2 Na. 


和 离散 时 间 的 情况 一 样 , 这 些 方程 组 中 有 一 个 是 多 余 的 , 也 就 是 , 第 三 个 方程 可 以 
由 前 两 个 方程 得 到 . 进一步 地 , 得 到 唯一 解 
30 6 5 

和 有 
所 以 , 例如 , 如 果 我 们 让 过 程 长 期 转移 下 去 , X(t) 将 以 稳 态 概率 30/41 停留 在 状态 
1, 且 独 立 于 初始 状态 . 

该 稳 态 概率 x; 要 区 分 于 嵌入 的 马尔 可 夫 链 X 的 稳 态 概率 元 确切 地 , 嵌入 
的 马尔 可 夫 链 X 的 平衡 方程 组 和 归 一 化 方程 为 


1 1_ 
T1 二 572+ Ts, T2 = NA1, T3 = 了 72， 


T1 


1 = A1 十 元 2 十 元 3， 
得 出 结论 
一 2 2 1 


NT1=E£, NR2 = Nha= =e. 


5 5 5 

为 了 盖 述 概率 元 的 意义 , 我 们 举例 说 明 , 如 果 让 过 程 长 期 转移 下 去 , 到 达 状 态 1 的 
转移 平均 频率 为 2/5. 

注意 , 尽管 元 = 元 (也 就 是 , 转移 到 达 状 态 1 的 次 数 和 到 达 状 态 2 的 次 数 相 
当 ), 我 们 也 有 ma > x2. 原因 是 过 程 倾向 于 在 到 达 状 态 1 时 多 花费 一 些 时 间 , 相对 
于 花费 在 状态 2 上 的 时 间 要 长 . 所 以 , 给 定 一 个 时 刻 t, 过 程 X(t) 更 有 可 能 处 于 状 
态 1. 这 种 情况 是 典型 的 , 两 组 稳 态 概率 (x; 和 元 ) 一 般 情况 下 是 不 同 的 . 主要 的 
例外 情况 是 , 转移 速率 v; 对 每 一 个 i 都 是 一 致 的 ; 参见 本 章 末 的 习题 口 
7.5.3” 生 灭 过 程 


类 似 于 离散 时 间 的 情况 , 生 灭 过 程 中 的 状态 是 线性 排列 的 , 转移 只 发 生 在 相 邻 
状态 之 间 , 或 者 停留 在 原 处 . 严格 地 , 我 们 有 


qi; =0， 当 |i 一 站 >1. 


在 生 灭 过 程 中 , 从 i 到 ; 的 转移 和 从 了 到 i 的 转移 的 长 期 平均 频率 是 相同 的 , 由 此 
推出 了 局 部 平衡 方程 组 


Tg7i 二 Tiqi;， 对 于 全 部 的 i, 
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局 部 平衡 方程 组 与 离散 时 间 的 情况 具有 相同 的 结构 , 能 推出 类 似 形 式 的 稳 态 概率 公 
式 . 
例 7.15( 续 ) 局 部 平衡 方程 组 形式 如 下 


Ni 和 N= TIAN 4 一 0,1 90 一 | 


我 们 得 到 ziri = pmi, 其 中 p = 和 /4. 所以, 我们 有 zi = piro, 对 于 所 有 的 i. 又 由 归 
一 化 方程 1 = 于 志 omi 得 到 


1 一 ro》 入 
1 一 0 
于 是 稳定 概率 为 
_ Pp 
~ 1+p++p™’ 


7.6 “小 结 和 讨论 


在 本 章 中 , 我 们 介绍 了 具有 有 限 个 状态 的 马尔 可 夫 链 . 在 离散 时 间 马 尔 可 夫 链 
中 , 在 整数 时 刻 发 生 状态 转换 , 转移 概率 为 pij. 马尔 可 夫 链 区 别 于 一 般 随机 过 程 的 
核心 性 质 是 转移 概率 p;; 的 性 质 , 在 当前 状态 为 i 的 条 件 下 , 下 一 个 时 刻 为 状态 j 
的 转移 概率 为 p;j, 这 与 i 所 在 的 时 刻 是 无 关 的 , 且 独 立 于 时 刻 以 前 的 状态 . 所 以 ， 
给 定 当前 一 个 状态 , 未 来 的 状态 与 过 程 的 过 去 状态 是 相互 独立 的 . 

从 现实 角度 看 建立 适当 的 马尔 可 夫 链 模型 从 某 种 意义 上 说 的 确 是 一 门 艺术 . 一 
般 地 , 我 们 需要 给 出 足够 充分 的 状态 信息 , 使 得 当前 状态 能 反映 来 自 过 程 中 任何 能 
联系 过 去 与 未 来 相关 的 信息 . 在 满足 上 述 要 求 的 基础 上 , 我 们 通常 需要 将 模型 变 得 
尽量 简洁 , 避免 不 必要 的 多 余 状 态 . 

给 定 一 个 马尔 可 夫 链 模型 , 这 里 有 几 个 有 趣 的 问题 . 

(a) 有 关 有 限时 间 上 过 程 的 统计 量 的 问题 . 我 们 已 经 计算 过 过 程 经 过 任何 一 个 
特定 路 径 的 概率 , 通过 沿路 径 轨 迹 的 转移 概率 的 连 乘积 得 到 . 更 一 般 的 事件 是 由 一 
些 相 关 的 路 径 组 成 , 因此 在 计算 这 些 事件 的 概率 的 时 候 只 需 将 与 事件 相关 路 径 的 概 
率 相 加 即 可 . 在 一 些 情况 下 , 我 们 可 以 利用 马尔 可 夫 性 质 进 行 计算 ,从 而 避免 列举 
与 事件 相关 的 所 有 路 径 . 例如 , 在 计算 ” 步 转移 概率 的 时 候 , 可 以 利用 查 普 曼 - 科 
尔 催 戈 罗 夫 方 程 进行 迭代 计算 . 

(b) 有 关 马 尔 可 夫 链 的 稳 态 概率 的 问题 . 为 了 解决 这 类 问题 , 我 们 对 马尔 可 夫 
链 的 状态 进行 分 类 , 状态 可 分 为 非常 返 的 和 常 返 的 两 类 . 马尔 可 夫 链 的 所 有 常 返 状 
态 的 集合 又 可 以 划分 为 互 不 相交 的 常 返 状态 类 , 以 便 使 得 在 同一 个 常 返 类 中 的 状态 
都 是 相互 可 达 的 . 而 每 一 个 常 返 状 态 类 又 可 以 区 分 为 周期 和 非 周 期 的 两 个 不 同性 


Ti 


i= 0,1,...,m. 口 
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质 的 常 返 类 . 马尔 可 夫 链 的 理论 的 中 心 结 论 是 , 如 果 链 是 由 单个 非 周期 的 常 返 类 以 
及 加 上 几 个 可 能 的 非常 返 状 态 组 成 的 , 那么 状态 到 达 某 个 ; 的 概率 ri (m) 在 时 间 
趋 于 无 穷 大 时 , 是 收敛 的 , 其 极限 值 称 为 稳 态 概率 xj, 这 个 极限 值 不 依赖 于 初始 状 
态 i. 换 句 话说 , 初始 状态 不 论 取 什么 值 , 当 n 很 大 时 , 对 X, 的 统计 特性 没有 影响 . 
通过 解 由 平衡 方程 组 和 归 一 化 方程 羡 ; mr = 1 组 成 的 线性 方程 组 , 我 们 可 以 得 到 稳 
态 概率 . 

(c) 有 关 马 尔 可 夫 链 的 状态 转移 性 质 的 问题 . 我 们 已 讨论 过 吸收 概率 (从 一 个 
给 定 的 非常 返 状态 出 发 , 最 终 进 入 给 定 的 常 返 状 态 的 概率 ), 以 及 平均 首 访 时 间 ( 假 
设 链 具有 单个 的 常 返 类 , 一 个 特定 常 返 态 被 首次 访问 的 平均 时 间 ). 两 种 情况 下 , 我 
们 都 证 明了 感 兴趣 的 量 都 可 以 通过 求解 一 系列 线性 方程 , 而 且 得 到 唯一 解 . 

最 后 我 们 也 考虑 连续 时 间 的 马尔 可 夫 链 . 在 这 类 模型 中 , 给 定 当前 状态 下 , 下 
一 个 状态 由 类 似 于 离散 时 间 的 马尔 可 夫 链 的 相同 机 制 所 决定 . 但 是 , 直到 下 个 转移 
发 生 的 时 间 是 指数 型 随机 变量 , 参数 只 依赖 于 当前 状态 . 连续 时 间 的 马尔 可 夫 链 在 
许多 方面 可 以 类 比 离散 时 间 的 马尔 可 夫 链 . 它们 具有 相同 的 马尔 可 夫 性 质 ( 在 给 
定 当 前 情况 下 , 未 来 与 过 去 独立 .) 事实 上 , 人 们 可 以 将 连续 时 间 的 马尔 可 夫 链 看 成 
时 间 轴 上 进行 细 分 离散 化 的 离散 时 间 的 马尔 可 夫 链 . 建立 这 个 联系 后 , 连续 时 间 的 
马尔 可 夫 链 与 离散 时 间 的 马尔 可 夫 链 的 稳 态 特性 是 相似 的 : 假设 只 有 一 个 常 返 类 ， 
那么 处 于 任何 状态 的 概率 , 当时 间 趋 于 无 穷 的 时 候 , 都 收敛 于 一 个 稳 态 概率 , 而 且 
该 概率 不 依赖 于 初始 状态 . 稳 态 概率 可 以 通过 求解 平衡 方程 组 和 归 一 化 方程 得 到 . 
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7.1 节 ”离散 时 间 马 氏 链 
1, 相 邻 两 个 顾客 陆续 到 达 一 个 机 构 的 时 间 闻 隔 是 独立 同 分 布 的 随机 变量 序列 , 其 公共 分 布 
列 为 
0.2， 车 二 1， 
0.3， 若 二 3， 
0.5， 车 二 4， 
0， ”其 他 ， 
构造 一 个 4 状态 马尔 可 夫 链 模型 来 描述 该 到 达 过 程 ， 在 这 个 模型 里 , 其 中 一 个 状态 应 该 
与 到 达 发 生 的 时 间 相 对 应 . 


2. 一 只 老鼠 在 走廊 里 移动 , 走廊 里 有 2m 块 瓷砖 , m > 1. 在 瓷砖 i 六 1, 2m 时 , 老鼠 就 以 等 
概率 向 左 i 一 1, 或 向 右 i 十 1 移动 . 在 瓷砖 1, 或 者 2m 时 , 老鼠 就 必定 分 别 移 向 瓷砖 2， 
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~” ” ”全 ”一 


3. 


或 者 2m - 1. 每 次 , 老鼠 走 到 瓷砖 i < m, 或 i > mm 时 , 电子 设备 就 会 分 别 发 出 信号 工 
或 者 R. 那么 由 信号 二 和 RR 组 成 的 序列 是 由 状态 工 和 R 组 成 的 马尔 可 夫 链 吗 ? 

考虑 例题 7.2 中 如 图 7.2 所 示 的 m = 4 情况 下 的 马尔 可 夫 链 . 假设 过 程 以 等 概率 地 从 4 
个 状态 中 的 任意 一 个 开始 , 当 马 氏 链 处 于 状态 1 或 状态 2 时 , 令 Yr = 1, 当 马 氏 链 处 于 
状态 3 或 状态 4 时 , 令 区 = 2. 那么 , 过 程 Y。 是 马尔 可 夫 链 吗 ? 


7.2 节 ”状态 分 类 


全 . 


一 只 蜂 蛛 和 一 只 苍蝇 在 一 条 直线 上 以 单位 增 量 移动 , 蜘蛛 总 是 向 苍蝇 移动 一 个 单元 , 而 苍 
蝇 以 0.3 的 概率 向 靠近 蜘蛛 方向 移动 一 个 单元 , 以 0.3 的 概率 向 远离 蜘蛛 方向 移动 一 个 
单元 , 以 0.4 的 概率 保持 在 原 地 不 动 . 蜘蛛 和 苍蝇 间 的 初始 距离 是 整数 ， 当 果 蛛 和 苍蝇 到 
达 同 一 个 位 置 时 , 蜂 蛛 就 迫 住 了 苍蝇 . 

(a) 构造 一 个 马尔 可 夫 链 描述 蜂 蛛 和 苍蝇 之 间 的 相对 距离 . 

(b) 指出 状态 空间 中 哪些 是 非常 返 状 态 , 哪些 是 常 返 状态 . 


. 设 有 一 个 马尔 可 夫 链 , 有 状态 1, 2,… ,9. 转移 概率 如 下 : pla = pl7 = 1/2, 当 1 关 1,6,9 


时 , ptrD = 1, 且 p6l = pei = 1. 该 马尔 可 夫 链 的 常 返 类 是 有 周期 的 吗 ? 

常 返 状态 的 存在 性 证 明 : 在 马尔 可 夫 链 中 , 从 任意 一 个 给 定 的 状态 出 发 至 少 可 以 到 达 一 
个 常 返 状 态 , 也 就 是 说 , 对 于 任意 状态 i, 在 从 i 出 发 可 以 到 达 的 状态 集合 4(i) 中 至 少 存 
在 一 个 常 返 状 态 j. 

解 ”固定 一 个 状态 i, 如 果 i 是 常 返 的 , 此 时 对 于 每 一 个 7 e A(i) 也 是 常 返 的 , 此 时 结 
论 成 立 ， 如 果 i 是 非常 返 的 , 此 时 就 存在 一 个 状态 ie A(i) 使 得 iq A( 认 ). 如 果 计 就 
是 常 返 的 , 那 我 们 就 已 经 找到 了 一 个 从 i 出 发 可 以 到 达 的 常 返 状态 . 假设 i 是 非常 返 的 ， 
则 必 有 i 关 生 ,因为 车 不 然 , 则 由 假设 和 € A(i) 和 i 4 A( 计 ), 而 i 与 i 又 相同 , 这 样 就 
得 到 ie A(i) 和 ie A(i) 这 两 个 相悖 的 结论 . 因为 , 计 是 非常 返 的 , 必 存 在 某 个 和 2 使 得 
i € 4(G1) 并 且 记 4 A(is). 特别 地 , i2 € A(i). 如 果 i 是 常 返 的 , 则 结论 成 立 , 所 以 此 时 
假设 io 是 非常 返 的 , 相同 的 方法 可 以 证 得 ; ii 关 io. 更 进一步 地 , 我 们 必须 有 io 关 i, 这 
是 因为 如 果 我 们 有 io = i, 则 将 得 到 ie A(i) = A(i2) 的 结论 , 和 假设 人 4 A(io) 相 矛 
盾 . 将 这 个 过 程 一 直 继 续 下 去 , 在 第 步 时 , 我 们 将 或 者 得 到 一 个 常 返 状态 读 , 它 可 以 从 
i 出 发 到 达 , 或 者 不 同 于 之 前 所 有 状态 记 订 ,… ,i_1 的 非常 返 状态 ， 因 为 状态 的 个 数 是 
有 限 的 , 因此 , 常 返 状态 必然 会 最 终 达到 . 

考虑 一 个 由 一 些 非常 返 状 态 和 常 返 状 态 组 成 的 马尔 可 夫 链 . 

(a) 证 明 : 存在 正 数 c > 0 和 0 < <1, 使 得 


P(X。 是 非常 返 状 态 | Xo = 让 < cy” 对 于 所 有 的 i 和 n>1. 

(b) 设 工 表示 使 得 X 到 达 常 返 状态 的 第 一 个 时 刻 n, 证 明 : 这 样 的 一 个 时 间 确 实 是 存 
在 的 [等 价 于 , 以 概率 为 1 地 存在 一 个 时 刻 n(n 不 是 一 个 常数 , 与 试验 结果 序列 有 
关 !) 使 得 X 为 常 返 状态 ], 并 且 E[T] < ce. 

解 (a) 为 方便 起 见 , 记 


gqi(n) = P(Xn 是 非常 返 状态 |Xo = 人 
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(b) 


容易 证 明 , 从 状态 i 出 发 , 一 定 可 以 找到 步 长 不 大 于 m 的 路 径 (这 里 m 是 指 状态 
个 数 ), 这 些 路 径 以 常 返 状 态 为 终点 , 并且 其 概率 为 正 ， 这些 路 径 不 可 能 以 正 的 概率 
延长 到 一 个 非常 返 状 态 . 这 样 , 在 计算 gi(m) 的 时 候 , 要 排除 这 些 路 径 的 概率 , 因此 ， 
有 结论 gq;(m) < 1. 令 


B= 到 ax 9i(rm)， 


注意 , 对 于 所 有 的 i, 都 有 gi(m) < 6 < 1. 如 果 到 时 刻 m 还 没有 到 达 一 个 常 返 状 
态 , 此 事件 发 生 的 概率 至 多 为 6. 在 此 条 件 下 , 在 未 来 m 步 还 不 能 到 达 常 返 状态 的 
条 件 概率 也 同样 至 多 为 6, 也 就 是 说 g;(2m) < 62, 事实 上 , 我 们 可 以 将 这 个 不 等 式 
形式 地 写 下 来 . 


qi(2m) 二 P(Xzm 是 非常 返 状态 |Xo = 局 


= 。 》， P(Xom 是 非常 返 状态 |Xm ==j, Xo= 让 P(Xm==j|Xo = 
5 是 非常 返 状态 


= 2》 P(X2m， 是 非常 返 状态 [Xm = 站 P(Xm = j|Xo = 
5 是 非常 返 状态 


= ”5 P(X， 是 非常 返 状 态 |Xo = 7)P(Xm = j|Xo 一 习 
7 是 非常 返 状态 


8 > P(Xn= jiXo=—) 
5 是 非常 返 状 态 


=BP(Xm， 是 非常 返 状态 |Xo == 沁 
< 0p’. 
类 似 地 继续 下 去 , 我 们 有 
qi(km) < B*， 对 于 所 有 的 4 和 天 > 1. 
令 表示 任何 正 整数 , k 表示 使 得 km < n < (上 十 DJm 的 整数 , 我 们 有 
gi(n) & qi(km) & PB* = p71(B I™) Dm B71BU™)" 


因此 , 取 c= p71,Yy = BY" 即 可 获得 想 要 的 关系 . 
设 4 表示 状态 永远 不 进入 常 返 状态 集合 的 事件 , 使 用 (a) 部 分 得 到 的 结果 , 我 们 有 


P(A) < P(Xn 是 非常 返 状态 ) < cy". 


因为 这 对 于 所 有 的 n 都 成 立 , 并 且 因为 y < 1, 我 们 必然 有 P(4) = 0, 这 就 说 明 几 
乎 可 以 肯定 (概率 等 于 1) 第 一 次 到 达 常 返 状态 的 时 间 7 是 有 限 的 . 这 样 便 得 到 
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EIT] = 》 mnP(Xw_; 是 非常 返 状态 , Xw 常 反 ) 


n=1 


其 中 , 最 后 一 个 等 式 是 使 用 了 几何 分 布 均值 的 计算 公式 . 
常 返 状 态 . 证 明 : 如 果 常 返 状态 已 经 被 访问 了 一 次 , 那么 在 将 来 它 被 再 次 访问 的 概率 等 于 
1( 因 此 , 在 将 来 时 间 里 无 限 次 被 访问 的 概率 也 等 于 1). 提示 : 修改 马 氏 链 , 使 得 感 兴趣 的 
常 返 状态 是 唯一 的 常 返 状态 , 然后 使 用 习题 7(b) 的 结论 . 
证 明 ”在 文中 己 经 指出 , 常 返 状态 的 集合 可 以 分 解 成 若 于 个 互 不 相交 的 常 返 状态 类 , 不 
同类 的 状态 是 互 不 可 达 的 . 设 s 是 一 个 常 返 状态 , 并 假设 s 已 经 被 访问 过 一 次 , 从 那 时 开 
始 , 可 能 的 状态 就 只 在 s 所 在 的 常 返 类 内 . 因此 , 不 失 一 般 性 , 我 们 假设 只 有 一 个 常 返 类 . 
假设 目前 的 状态 是 某 个 i 关 s, 我 们 想 要 证 明 , s 保证 会 在 将 来 的 某 个 时 间 被 再 次 访问 . 
考虑 一 个 新 的 马 氏 链 , 在 原来 的 转移 概率 阵 中 将 pss 设 成 1, psi = 0, i 关 s, 这 样 从 s 状 
态 不 能 够 转移 出 去 .对 其 他 状态 i 取 s, 其 转移 出 去 的 概率 pij 保持 不 变 . 显然 , s 是 新 链 
的 常 返 状态 . 更 进一步 地 , 对 于 任何 状态 i 尖 s, 在 原 链 中 从 i 到 s 都 有 一 条 有 着 正 概率 
的 路 径 (因为 s 在 原 链 中 是 常 返 态 )， 同 理 , 在 新 链 中 也 成 立 ， 而 在 新 链 中 从 s 出 发 无 法 
到 达 i, 所 以 对 于 新 链 中 的 每 一 个 关 s 都 是 非常 返 状 态 . 通过 习题 7(b) 的 结论 , 状态 s 
在 新 链 中 将 以 概率 1 被 最 终 到 达 , 但 是 原始 链 在 s 被 第 一 次 到 达 之 前 与 新 链 是 完全 等 同 
的 . 因此 , 在 原 链 中 状态 s 保证 能 被 最 终 到 达 . 重复 这 个 证 明 过 程 , 我 们 可 以 得 到 , s 保证 
会 以 概率 1 被 无 穷 次 访问 . 
周期 类 . 考虑 一 个 常 返 类 R. 证 明 , 下 述 二 者 之 一 成 立 . 
(i) 中 的 状态 可 以 被 分 为 a > 1 个 不 相交 的 子 集 51,… ,Sa, 使 得 Sx 中 的 所 有 状态 
下 一 步 都 转移 到 S41 中 , 或 者 当 k = d 时 5% 中 的 所 有 状态 下 一 步 都 转移 到 Si 中 
(在 这 种 情况 下 , R 是 周期 的 ). 
(i) 除了 有 限 个 时 刻 外 , 对 所 有 的 时 刻 n 和 所 有 的 i,j < R 都 有 rij(n) > 0( 在 这 种 情况 
下 , R 是 非 周期 的 ). 
提示 : 固定 一 个 状态 i, 并 且 设 d 是 集合 8 = {nlrii(n) > 0} 中 元 素 的 最 大 公 因数 . 如 
果 a = 1 使 用 如 下 基础 数论 的 事实 : 如 果 正 整数 的 集合 {a1, oa2,…} 没有 除 1 以 外 的 
公 因 数 , 则 除 一 个 有 限 集 外 的 任意 正 整数 n, 均 可 以 表达 为 如 下 形式 : n = hla 十 12as 十 
… 十 kas, 其 中 1,.… ,应 为 某 些 非 负 整数 , t 是 某 个 满足 t > 1 的 整数 . 
证 明 ”固定 状态 ie RR, 考虑 集合 @ = {nlrii(n) > 0}. 设 d 是 集合 Q 中 元 素 的 最 大 公 
因数 . 首先 考虑 a 关 1 的 情况 . 对 于 有 = 1,2,.… ,d, 设 S; 表示 对 于 某 个 非 负 整数 1 从 
状态 i 出 发 经 过 1d 十 k 步 能 到 达 的 所 有 状态 的 集合 . 假设 s e Sk 并 且 pss > 0. 因为 
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s € Sy, 所 以 对 某 个 1, 从 状态 i 出 发 经 过 ld 十 k 步 能 到 达 s, 也 就 是 说 我 们 从 状态 i 出 发 
经 过 ld 十 k 十 1 步 能 到 达 s'. 这 就 证 明了 当 k < d 时 , se Sk41; 当 k= 4d 时 , se 51. 
现在 只 剩 下 证 明 集 合 5S1,… , Sa 是 互 不 相交 的 . 使 用 反 证 法 . 假设 存在 某 个 k 关 k', 且 
存在 s 使 得 se Sk 且 se Si'. 设 gq 表示 一 条 从 s 到 i 的 正 概率 路 径 的 长 度 . 从 出 发 
我 们 经 过 ld 十 上 步 到 达 s, 再 经 过 g 步 返回 i. 这 样 就 有 ld 十 十 g 属于 集合 Q, 也 就 是 
说 d 可 以 整除 上 十 gq, 同 理 可 证 , d 也 可 以 整除 k' 十 g, 这 样 d 就 可 以 整除 一 k', 但 是 由 
1 < |k 一 k'| < d 一 1, 因此 得 到 矛盾 

现在 考虑 d = 1 的 情况 , 令 8@ = {ai, az,…}, 因为 这 些 都 是 从 i 出 发 再 回 到 i 的 
正 概率 路 径 的 可 能 长 度 , 因此 具有 形 如 m” = kiai 十 ias 十 … 十 keas 的 任何 整数 n 也 
在 集合 Q 里 (想得到 这 个 结论 , 用 ki 乘 以 长 度 为 ai 的 路 径 , ko 乘 以 长 度 为 aa 的 路 径 ， 
本 ). 通过 提示 中 已 给 的 数论 事实 可 知 , 除了 有 限 多 个 正 整数 以 外 , 集合 Q 几乎 包含 全 
体 正 整数 , 即 存 在 一 个 ni, 使 得 


rii(n) >0, 对 所 有 的 n > n: 成 立 . 


固定 某 个 jy 了 关 i, 且 设 g 是 从 i 到 ; 长 度 最 短 的 正 概率 路 径 , 故 g < m, 这 里 m 是 链 中 
状态 的 总 个 数 . 考虑 某 个 满足 n > ni 十 m 的 mw 并 注意 到 mg > 让 十 四 一 9 > 充 . 这 
样 , 我 们 就 可 以 经 过 n 一 g 步 从 i 出 发 回 到 它 自己 , 然后 经 过 g 步 从 i 到 j. 因此 , 只 要 
n>nmnt+m, 从 i 到 j 就 有 rij(n) > 0, Vi e RR. 这 个 结论 显然 对 任意 i 都 成 立 . 故 结论 
(让 ) 成 立 . 

我 们 至 今 已 经 证 明了 题目 中 的 两 个 结论 至 少 一 个 是 成 立 的 . 这 两 个 结论 显然 不 能 同 
时 成 立 , 这 是 因为 一 个 常 返 类 , 要 么 是 周期 的 , 要 么 是 非 周 期 的 , 两 者 不 能 同时 成 立 . 

为 了 完整 起 见 ， 我 们 在 这 里 提供 上 面 用 到 的 数论 事实 的 证 明 ， 我 们 从 正 整数 集合 
oa aa 开始 ， 并 假设 它们 除了 1 外 没有 其 他 的 公 因数 .我 们 定义 M 表示 一 切 具 
有 形式 汀 !_ 1 kias 的 正 整 数 的 集合 , 其 中 ki 表示 非 负 整数 , 注意 这 个 集合 在 加 法 运算 下 
是 封闭 的 (M 中 的 两 元 素 之 和 也 具有 这 种 形式 , 因此 必然 属于 M). 设 g 表示 M 中 两 不 
同 元 素 的 最 小 差 . 这 样 有 : 9 > 1 且 对 于 所 有 的 i, 有 9 < oi (因为 os, 2as 都 属于 M). 

假设 9 > 1, 因为 {a1, a2,…} 的 最 大 公 因 数 为 1, 就 存在 某 个 ai*, 不 能 被 9 整除 ， 
于 是 对 于 某 个 正 整数 1, 我 们 有 

Qi* 二 lg 十 7， 


其 中 余数 7 满足 0 < r < 9. 进一步 地 , 从 9 的 定义 角度 来 看 , 存在 非 负 整 数 ki, ki, kz, 及， 
“ , kt, kt, 使 得 


t t 
>》， jiai 一 >, kiasi + g. 
i=1 i=1 
将 上 式 两 边 同 乘 以 1, 并 利用 方程 ai* = lg 十 7, 得 到 


t 
>》 (ia)oau = De )as 二 19 = Dax )as + oir —7. 
i=1 


@ 由 d 关 1 可 导致 马尔 可 夫 链 的 常 返 类 是 有 周期 的 , 并且 周期 为 a, 这 个 性 质 与 i e R 的 取 法 是 无 关 
的 , 即 从 一 开始 随便 固定 一 个 状态 (例如 取 定 ; 去 i), 也 会 得 到 相同 的 结论 . 译 者 注 
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这 就 证 明了 在 集合 M 中 存在 两 个 数 它们 的 差 为 ~. 因为 0 < ” < 9, 这 就 和 我 们 假 
设 9 是 最 小 的 可 能 差 值 相 矛 盾 , 因此 也 就 证 明了 9 必须 等 于 1. 

既然 9 = 1, 就 存在 某 个 正 整 数 x 使 得 ze M 并 且 xz 十 1 e M. 我 们 将 要 证 明 ， 
对 于 每 一 个 大 于 aaz 的 整数 ”都 属于 M， 事实 上 , 通过 用 oa 去 除 ” 我 们 可 以 得 到 
n 二 kai 十 7, 其 中 此 之 zx, 且 余数 > 满足 0 < r < ma, 我 们 将 m 改写 成 如 下 形式 


n= zo —7)+ (s+)r+ (kor)a. 


因为 z,z + 1l, aa 都 属于 M, 这 就 证 明了 n 是 M 的 元 素 和 , 因此 也 属于 M, 这 样 就 证 明 
了 我 们 的 结论 . 


7.3 节 稳 态 性 质 


10. 


11. 


12. 


13. 


考虑 例 7.3 中 机 器 损坏 和 维修 的 两 个 模型 . 求 : 马 氏 链 含有 单个 非 周期 常 返 类 时 上 和 r 
应 满足 的 条 件 , 并 在 这 个 条 件 下 求 出 稳 态 概率 的 明确 表达 式 . 

一 个 教授 进行 的 测试 分 为 难 、 中 等 、 容 易 三 类 . 如 果 他 给 出 的 是 难 的 测试 , 那么 下 一 次 测 
试 的 难度 将 是 中 等 难度 或 者 是 容易 的 , 并 且 这 两 种 难度 出 现 的 概率 是 相等 的 . 但 是 , 如 果 
他 给 出 的 是 中 等 难度 的 测试 题 或 者 是 容易 的 测试 题 , 则 下 一 次 测试 将 以 0.5 的 概率 依然 
保持 此 难度 , 以 0.25 的 概率 分 别 采用 其 他 两 种 难度 的 测试 . 构造 一 个 合适 的 马尔 可 夫 链 ， 
并 计算 稳 态 概率 . 

埃 尔 文 喜欢 在 每 个 星期 六 出 海 去 附近 的 小 岛 上 的 别墅 . 他 很 喜欢 钓鱼 , 只 要 天 气 好 , 他 会 
在 来 回 小 岛 的 路 上 钓鱼 . 但 是 , 在 来 回 小 岛 的 路 上 天 气 好 的 概率 只 有 p, 并 且 独 立 于 过 去 
航行 的 天 气 情况 (所 以 天 气 可 能 在 去 的 时 候 很 好 , 但 是 回来 的 时 候 很 不 好 ). 如 果 天 气 很 
好 的 话 , 则 埃 尔 文 会 带 着 他 n 支 渔 竿 中 的 一 支 , 但 是 如 果 天 气 不 好 的 话 , 他 就 不 会 随身 扒 
带 渔 竿 . 我 们 想 求 出 在 给 定 一 段 来 小 岛 (或 者 从 小 岛 回 家 ) 的 旅途 中 , 天 气 很 好 但 是 埃 尔 
文 因为 他 的 渔 竿 都 在 另 一 个 房子 而 没有 钓鱼 的 概率 . 

(a) 计算 一 个 有 着 n+ 1 个 状态 的 合适 的 马尔 可 夫 链 , 并 计算 各 状态 的 稳 态 概率 . 

(b) 在 给 定 行程 的 条 件 下 , 求 埃 尔 文 在 好 天 气 出 海 却 没有 带 渔 竿 的 稳 态 概率 . 

考虑 如 图 7.22 所 示 的 马尔 可 夫 链 , 我 们 将 转移 到 一 个 高 ( 低 ) 指标 状态 称 为 “ 生 ”(“ 死 ”). 
假设 在 我 们 开始 观测 这 个 链 时 它 就 已 经 平稳 了 , 计算 如 下 各 个 量 . 


0.4 0.5 0.8 


0.3 0.2 


图 7.22 习题 13 中 的 转移 概率 图 


(a) 对 于 一 个 状态 i, 求 当前 状态 是 i 的 概率 . 
(b) 求 我 们 观测 到 的 第 一 次 转移 是 “ 生 ” 的 概率 . 


14. 


15, 


16. 


17. 


18. 


19.* 


习 题 331 


(c) 求 我 们 观测 到 的 第 一 次 状态 变化 是 “ 生 ” 的 概率 . 

(d) 在 转移 是 “ 生 ” 的 条 件 下 , 求 在 我 们 观测 到 的 第 一 次 转移 之 前 过 程 位 于 状态 2 的 概 
率 . 

(e) 在 状态 变化 是 “ 生 ” 的 条 件 下 , 求 在 我 们 观测 到 的 第 一 次 状态 变化 之 前 过 程 位 于 状 
态 2 的 概率 . 

(f) 在 第 一 次 观测 到 的 转移 造成 了 状态 改变 的 条 件 下 , 求 第 一 次 转移 是 “ 生 ” 的 概率 . 

(g) 在 第 一 次 观测 到 的 转移 造成 了 状态 改变 的 条 件 下 , 求 第 一 次 转移 到 状态 2 的 概率 . 

考虑 一 个 已 知 转移 概率 并 且 含 有 单一 非 周期 常 返 类 的 马 氏 链 . 假设 对 于 ”> 500, mn 步 转 

移 概率 非常 接近 于 平稳 状态 概率 

(a) 求 P(Xio00 = j, 关 1001 二 ,六 2000 = !|Xo = 旨 的 近似 计算 公式 . 

(b) 求 P(Xio00 = 外 Xiool = 站 的 近似 计算 公式 . 

埃 伦 费 斯 特 扩散 模型 . 我 们 总 共有 m 个 球 , 其 中 一 部 分 为 黑 球 , 一 部 分 为 白 球 , 在 每 一 个 

时 间 点 上 , 我 们 或 者 以 概率 e(0 < e < 1) 什么 也 不 做 , 或 者 随机 选 一 个 球 , 使 得 每 一 个 球 

被 选中 的 概率 为 (1 一 e)/n > 0. 在 后 一 种 情况 下 , 我 们 将 所 选 球 的 颜色 改变 ( 白 的 变 成 黑 

的 , 黑 的 变 成 白 的 ), 过 程 就 这 样 无 穷 地 重复 下 去 . 问 : 白 球 个 数 的 稳 态 分 布 是 什么 ? 

伯 努 利 - 拉 普 拉 斯 扩散 模型 ， 两 个 坛子 中 的 每 一 个 都 有 mm 个 小 球 . 2m 个 小 球 中 , 有 m 

个 是 白 球 , m 个 是 黑 球 ， 同 时 从 两 个 坛子 中 拿 出 一 个 球 放 入 另 一 个 坛子 中 并 且 过 程 一 直 

持续 下 去 , 间 每 个 坛子 中 白 球 个 数 的 稳 态 分 布 是 什么 ? 

考虑 一 个 两 状态 (分 别 记 为 1, 2) 的 马 氏 链 , 转移 概率 为 


P11 一 1 一 0 p12 三) 
p21=B, p22=1—p, 


其 中 ,6 满足 0O<aw<l0<B8<1. 
(a) 证 明 : 链 中 的 两 状态 形成 了 一 个 非 周 期 常 返 类 . 
(b) 使 用 归纳 法 证 明 , 对 于 所 有 的 n, 我 们 有 


_ 8 all—a— HP)” aa al-a-pB" 
ma 一 5 二 a 十 B ’ "12(n) = FF Q 十 
mam) af 3 m= s+ 3 


(c) 稳 态 概率 ri, ra 是 多 少 ? 
MIT 的 停车 库 安装 了 一 个 磁卡 门 , 但 不 幸 的 是 , 由 于 人 们 的 粗心 , 门 非常 容易 出 现 问 题 . 
特别 地 , 每 天 一 辆 车 撞 门 的 概率 为 p, 并 且 在 这 种 情况 下 就 需要 安装 一 个 新 门 . 同样 , 门 在 
坚持 了 m 天 之 后 由 于 周期 性 的 维修 必须 进行 替换 . 问 : 门 更 换 频 率 的 长 期 期 望 是 多 少 ? 
稳 态 收敛 . 考虑 一 个 含有 单个 常 返 类 的 马 氏 链 , 并 且 假 设 存在 一 个 时 刻 元 使 得 : 对 于 所 
有 的 i 和 所 有 常 返 态 的 7 

rij(N) > 0. 


@“ 状 态 转移 ” 是 指 从 状态 i 转移 到 状态 ;, 但 是 i 与 7 可 以 相同 ; “状态 变化 ” 是 指 从 状态 变化 到 
状态 j, 这 时 状态 i 与 7 一 定 不 同 . 译 者 注 
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(这 和 假设 “ 常 返 类 是 非 周 期 的 ”是 等 价 的 ). 证 明 : 对 于 任意 的 i,j, 极限 
人 
存在 , 且 不 依赖 于 i。 为 了 证 明 这 个 结论 , 我 们 需要 证 明 初 始 状态 的 选择 没有 长 期 效应 . 
要 量化 这 个 效应 , 我 们 考 虚 两 个 不 同 的 初始 状态 i, &, 并 考虑 两 个 独立 的 马尔 可 夫 链 Xn 
和 YY,,， 它们 具有 相同 的 转移 概率 , 但 是 初始 状态 不 一 样 ，Xo 一 让 如 = 大 令 了 = 
min{n|X， = Yi.} 表示 两 个 链 第 一 次 到 达 同 一 状态 的 时 间 . 
(a) 证 明 存在 一 个 正常 数 c 和 7 < 1, 使 得 
P(T>n) 所 cy 
(Pb) 证 明 如 果 在 时 刻 n 以 前 某 个 时 刻 ( 含 n) 两 个 链 的 状态 是 相同 , 则 它们 在 时 刻 ”的 
状态 概率 也 相同 , 即 
P(UK = jIT < n)=P(Y,=jT <n). 
(c) 证 明 对 所 有 的 i,j,k,n, 都 有 |rij(n) 一 7?kj(n)| < cy*， 提 示 : 分别 计算 在 两 事件 
{TT> n} 和 { 工 < n} 的 条 件 下 的 条 件 概率 . 
(d) 设 gt(n) = maxsi 7ij(n),97 (n) = mini rij(m), 证 明 : 对 所 有 的 n, 有 
qj (nN) < gq n+l) < qt (nt+1) < ql (n). 
(e) 证 明 序 列 r;; 收敛 于 一 个 不 依赖 于 i 的 极限 .提示 : 综合 (c), (d) 两 部 分 的 结论 , 证 
明 两 序列 q+ (n),q; (n) 是 收敛 的 , 并 且 极 限 相同 . 
证 明 (a) 此 结论 与 习题 7 中 计算 直到 到 达 常 返 状 态 所 需 时 间 的 分 布 列 的 上 界 是 相似 的 . 
设 1 是 某 个 常 返 状态 , 定义 6 = mini ri(n) > 0. 无 论 现在 链 Xn， 7, 的 状态 是 什 
么 , 在 元 步 后 两 链 都 处 于 状态 ! 的 概率 至 少 为 82. 这 样 ， 
P(T>7N)<1- 8. 
类 似 地 , 可 得 
P(T > 27) = P(T > NP(T > 2n|T > 7) < (1 -82), 
P(T > kn) & (1 — 82)*, 
这 就 证 明了 
P(T>n)<ceY" 
其 中 , y= (1 一 B32), c=1/(1 一 B27 
(b) 我 们 分 别 在 工 可 能 的 取 值 上 以 及 两 链 在 时 刻 工 时 的 共同 状态 ! 下 取 条 件 化 , 使 用 
全 概率 公式 , 我 们 有 


P(Xn=jT <n)= YY P(Xn=jT=t, X=D)PT=t, X=1T <n) 
t=0 i=1 
= YS P(X =jX =D)P(T=t, X= UT gn) 


+ 
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类 似 地 
P(Y, = jlT < n) -7 > ry(n—tPT=t, = <n). 
t=0 1 


但 是 事件 { 荆 =t,X = 中 和 { 工 = 中 是 等 同 的 , 因此 具有 相同 的 概率 , 也 
就 是 说 , P(Xn = j|T < n) = ptr, = 二 i < n). 
(c) 我 们 有 


rij(n) = P(Xn 一 力 =PXn =jT < n)P(T gn)+P(Xn = IjT > n)P(T >n), 


rey(n) =P(Y% =7) =P(Y, = jIT < WPT < n) + PO, =jIT > n)P(T > n), 
将 上 述 两 式 相 减 , 使 用 (b) 部 分 的 结论 消去 右边 的 第 一 项 , 我 们 得 到 


ris(n) — rin)| < IP(Xn = iT >n)P(T >n) -PW = jr > n)P(T > n)l 
<P(T>n,) 
&ey". 


(d) 通过 对 第 一 次 转移 的 状态 取 条 件 化 , 使 用 全 概率 公式 , 我 们 得 到 如 下 查 普 曼 - 科 尔 
英 戈 罗 夫 方程 的 另 一 种 形式 


ra(n+1)= >) pirrp;(n). 
k=1 
使 用 这 个 等 式 , 我 们 得 到 
YG n+l) = mgxri(n +1) = mgxD) piarks(n) smax》 ping} (n) = qf (n). 
k=1 k=1 


利用 对 称 性 可 得 不 等 式 oj (n) < gj (n 十 1)， 由 定义 直接 可 以 得 到 qj (n+1) < 
qf (n+1). 
由 于 序列 oy (n), q+ (mn) 对 n 的 单调 性 , 当 n 一 oo 时 , 这 两 个 序列 是 收敛 的 . 对 于 
所 有 的 ik, 不 等 式 |riz(n) 一 rpy(n)| < ey" 可 以 推出 时 (站 -qj7(n) < cy". 令 
n 一 co, 由 这 个 不 等 式 可 知 qj (n) 和 gt (m) 的 极限 是 一 样 的 令 x; 表示 这 个 共 
同 的 极限 . 因为 g7 (n) < riy(n) < (mn), 因而 riy(n) 也 收敛 于 zj, 并 且 极 限 独立 
于 
20.” 平 衡 方程 解法 的 唯一 性 .考虑 一 个 具有 单个 常 返 类 并 且 附 加 一 些 非常 返 状态 的 马尔 可 夫 
链 . 
(a) 假设 常 返 类 是 非 周期 的 , 证 明 平衡 方程 和 归 一 化 方程 一 起 存在 唯一 非 负 解 . 提示 : 
给 出 一 个 不 同 于 稳 态 概率 的 解 , 使 得 它 是 Xo 的 分 布 列 并 且 考 虑 当时 间 趋 于 无 穷 时 
的 情况 . 
(b) 证 明 在 (a) 部 分 的 唯一 解 的 结论 在 周期 性 的 常 返 类 的 情形 下 依然 成 立 .提示 : 引入 
自我 转移 的 马尔 可 夫 链 , 这 样 可 以 产生 等 价 的 一 些 平衡 方程 组 , 再 运用 (a) 部 分 的 
结果 . 


(e 


~ 
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证 明 (a) 设 zl, .…，mrm 是 稳 态 概率 , 即 riy(n) 的 极限 . 它们 满足 平衡 方程 和 归 一 化 
方程 .假设 存在 另 一 组 非 负 解 元 ,…, im， 我 们 通过 这 些 概率 建立 马 氏 链 , 因而 
对 于 所 有 的 j, 有 P(Xo = 站 =7;， 由 文中 的 讨论 , 我 们 得 到 在 各 个 时 间 点 都 有 
P(X = 人 =. 因此 ,， 


(b) 考虑 一 个 新 的 马 氏 链 , 其 转换 概率 5;; 如 下 给 出 : 

bii = (1 — oa)pit+a, Bi; = 人 一 a)pi) 了 天 二 
这 里 a 满足 0 < a < 1. 这 个 新 的 马 氏 链 的 平衡 方程 表达 式 为 

Tj = Ny((1— pii + 0) + Dy mi(l — oa)pis, 

i 
或 者 是 
(1 一 or = (1— oa) 2 Tipss. 

这 些 等 式 和 原 链 的 平衡 方程 是 等 价 的 . 注意 , 新 链 是 非 周期 的 , 原因 是 自我 转移 有 


正 概率 . 这 就 为 新 链 建立 了 平衡 方程 的 唯一 解 , 这 对 原 链 同 样 适用 . 
21.” 平均 长 期 频率 的 解释 . 考虑 一 个 非 周期 的 单一 常 返 类 马 氏 链 . 证 明 : 


1 = lim (0, 对 所 有 的 i,j = 1,… ,m 都 成 立 


这 里 x; 是 稳 态 概率 , vij(n) 是 指 在 头 n 次 转移 中 ,从 状态 i 开始 , 到 达 状 态 ; 的 平均 
访问 次 数 .提示 : ”使 用 以 下 分 析 的 事实 。 如 果 数 列 an 收敛 到 实数 a, 那么 定义 为 如 = 
(1/n) 党 ?_1 ax 的 序列 如 也 同样 收敛 到 a. 

证 明 ”我 们 首先 证 明 对 于 所 有 的 mw i, j, 有 


Vij(n) = > rs(k). 
k=1 
为 了 更 明白 这 点 , 注意 


vij(n)=E 


》 到 |Xo = ， 
k=1 
这 里 是 随机 变量 , 当 X = 了 时 取 1, 其 他 情况 下 取 0, 于 是 


卫 [ 玉 |Xo 一 外 一 rij (Ek). 
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又 因为 


rij(k) 收敛 到 zj, 这 表明 vij(n)/n 同样 收敛 到 zj;, 这 就 是 我 们 希望 的 结果 . 
为 了 完整 性 , 我 们 同样 证 明 在 提示 中 给 出 的 事实 ( 它 在 上 面 讨论 的 最 后 一 步 中 用 到 ). 

考虑 一 个 序列 an 收敛 到 a, 并 设 bn = (1/n) 7_] an. 固定 某 个 e > 0, 因为 an 收敛 到 

a, 所 以 存在 某 个 no 使 得 对 所 有 的 > no, ak < a+(e/2). 再 令 ec= maxk ak. 我 们 得 到 


当 n 趋 于 无 穷 时 ,上 式 右边 的 极限 是 a 十 (e/2). 因此 , 存在 某 个 ni 使 得 当 n> ni 
时 , 有 bn < a 十 e. 运用 对 称 的 论证 , 存在 某 个 na 使 得 当 n > na 时 , 有 b > a 一 e. 我 们 
已 经 证 明 对 任意 的 e > 0, 存在 某 个 ns( 比 如 , ns 二 max{n1, n2}), 使 得 对 所 有 的 n > ns， 
有 |bn 一 al < e. 这 表明 bn 收敛 到 a. 
二 重 随 机 和 矩阵 . 考虑 一 个 非 周期 的 单一 常 返 类 马 氏 链 , 且 转 换 概 率 和 矩阵 是 二 重 随 机 的 . 也 
就 是 说 它 每 一 列 或 每 一 行 的 元 素 和 为 1, 因此 有 
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(a) 证 明 例 7.7 中 链 的 转换 概率 矩阵 是 二 重 随机 的 . 
(pb) 证 明 其 稳 态 概率 是 


(c) 假设 这 个 链 的 常 返 类 是 周期 的 . 证 明 ma = … = rm = 1/m 是 这 个 由 平衡 方程 组 
和 归 一 化 方程 组 成 的 方程 组 的 唯一 解 . 在 例 7.7 的 条 件 中 当 mm 是 偶数 时 讨论 你 的 
答案 . 

证 明 (a) 很 明显 地 , 本 例 中 的 转换 概率 矩阵 的 每 一 行 和 每 一 列 的 和 均 为 1. 

(b) 我 们 有 


™, 


Pi 7 


1 
i=1 m 
因此 给 定 的 概率 ry = 1/m 满足 平衡 方程 组 , 它 必 定 是 稳 态 概率 . 
(c) 令 (ri ,mm) 是 平衡 归 一 化 方程 的 任意 一 组 解 . 考虑 一 个 特别 的 j, 使 得 对 于 所 
有 的 i 有 zj > mi 令 q = zi. 在 状态 7 时 平衡 方程 满足 


m™m mm 
q=7= ,mpiy < gq ,pi =g, 
i=1 i=1 
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这 里 的 最 后 一 步 能 够 成 立 是 因为 转移 概率 矩阵 是 二 重 随机 的 . 这 表明 以 上 的 不 等 式 
事实 上 是 一 个 等 式 即 


3 2 
Drip = > gpis 
i=1 i=1 


由 于 对 所 有 的 i 有 mi < g, 我 们 得 到 对 所 有 的 i, zipiy = qpij, 因此 对 每 一 个 可 
能 转移 到 ; 的 状态 i 有 mi = q. 既然 所 有 满足 pi; > 0 的 状态 i, 均 有 ri = g, 重复 
这 一 过 程 , 可 知 所 有 满足 pi; > 0( 此 处 i 满足 p;; > 0) 的 状态 1, 均 有 zi = 9 即 所 
有 两 步 能 到 达 状 态 ; 的 状态 , 其 相应 的 稳 态 概率 为 9. 进而 我 们 发 现 对 于 每 个 状态 
i 当 存 在 一 个 从 i 到 ; 的 非 负 的 概率 路 径 时 , 就 有 mi = 9. 因为 所 有 状态 都 属于 同 
一 个 周期 类 , 因此 所 有 的 状态 i 都 有 这 一 特性 , 对 所 有 的 i, xi 都 是 一 样 的 . 因为 zt; 
的 和 为 1, 所 以 我 们 得 到 对 所 有 的 i 有 mi = 1/m. 

例 7.7 中 如 果 m 是 偶数 , 链 的 周期 是 2. 我 们 得 到 的 结果 表明 : ri = 1/m 确 
实 是 这 个 平衡 方程 组 和 归 一 化 方程 组 成 的 方程 组 的 唯一 解 . 

23.” 排队 问题 . 考虑 例 7.9 中 的 排队 问题 , 但 是 假设 信息 的 到 达 和 发 送 的 概率 是 取决 于 排队 的 
状态 本 身 . 特别 地 , 在 每 一 段 时 间 里 , 在 节点 处 有 i 个 信息 包 , 那么 以 下 三 种 情况 中 会 有 
一 种 发 生 . 

(i ) 一 个 新 信息 到 达 ; 发 生 的 概率 是 b;. 我 们 假定 i<m 时 b>0 且 b=0. 

(站 ) 一 个 现存 的 信息 发 送出 去 , 发 生 的 概率 是 di, 且 当 i > 1 时 , d; > 0; 当 i= 0 时， 
di = 0; 

(过 ) 既 没 有 新 信息 到 达 , 也 没有 信息 完成 传送 . 发生 的 概率 是 : 当 i > 1 时 概率 为 1 一 
bi 一 di; i 二 0 时 , 概率 为 1 一 bb. 

计算 对 应 马尔 可 夫 链 的 稳 态 概率 . 

证 明 ”我 们 引入 一 条 马 氏 链 , 状态 为 0, 1, …, m, 它们 分 别 对 应 在 节点 上 存放 的 信息 总 

数目 . 转换 概率 图 如 图 7.23 所 示 . 


1 一 加 1—b—ad 1— bm 1 一 dmn— 1 一 


仁 1 bo (a ,A 
ooT ViT . em ) 


oh 中 nl dn 
图 7.23 习题 23 中 的 转移 概率 图 


与 例 7.9 类 似 , 局 部 平衡 方程 如 下 : 
Nibi = Nit1dit1, t= 0,1,... ,mC—1. 


因此 我 们 有 mi+i=pimi, 其 中 


bs 
dit1 


Pi= 


因此 对 i= 1,… ,mm 有 zti==(po… pi_1)7o. 再 由 归 一 化 方程 1 = ro 十 ti 十 … 十 Nm, 我 


24.” 


25.” 局 部 平衡 方程 . 我 们 给 出 一 个 非 周期 的 单一 常 返 类 的 马 氏 链 , 假设 1,… 


们 得 到 
1 = NAo(l+t po popit 二 po pm-_1), 
由 此 得 到 


1 


7T0 二 一 一 一 一 一 一 一 一 一 一. 
? 1 工 十 po 十 popi 十 … 十 po pm-_1 


其 他 的 稳 态 概率 是 


Po***: Pi-1 


7 一 一 一 一 一 一 一 一， 
1 十 po 十 pop1 十 …: 十 00.…pm-i 


t= 1 


平衡 方程 之 间 的 相依 性 . 对 于 前 m 一 1 个 平衡 方程 mi = 区 npppy; 7 二 1-… 


证 明 将 它们 相 加 起 来 , 则 能 得 到 最 后 一 个 等 式 rm = 5 ) nppkm. 
证 明 ”把 头 m 一 1 个 平衡 方程 加 起 来 , 我 们 得 到 


m—1 m—1 


m1 ™m 
三 Tm 十 >», Tk 一 DY rpphm. 
k=1 k=1 
这 个 等 式 和 最 后 一 个 平衡 方程 rm = 并 中 rppum 是 等 价 的 . 


局 部 平衡 和 归 一 化 方程 组 的 一 组 解 . 
Ti2Di1 = TypPji, 227 一 ,77 
Vn $= 1,.…,m. 

i=1 


(a) 证 明 x) 是 稳 态 概 率 . 
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,Tm 是 下 面 的 


(b) 利用 i,j 之 闻 的 平均 长 期 转移 频率 的 意义 来 解释 等 式 rips = zjpyi 的 含义 . 


(c) 构造 一 个 例子 , 使 得 局 部 平衡 方程 不 满足 稳 态 概率 . 
证 明 (a) 把 局 部 平衡 方程 ripi = mpii 对 下 标 i 相 加 , 得 到 


3772 mm 
y TaiDij = > Tpji = Tj, j=1,.…,m, 
i=1 i=1 


因此 7j,j = 1,.… ,mm 满足 平衡 方程 , 所 以 它们 就 等 于 稳 态 概率 . 


(b) 我 们 知道 xipi 可 以 解释 为 从 状态 i 到 状态 7 的 平均 长 期 频率 , 所 以 局 部 平衡 方 
程 表明 从 一 个 状态 到 另 一 个 状态 的 转移 ， 其 长 期 平均 频率 与 反方 向 转移 的 长 期 平 


均 频 率 是 相同 的 (这 个 性 质 也 叫做 链 的 时 送 性 ). 
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(c) 我 们 构造 有 三 个 状态 的 一 个 例子 ， 设 状态 为 1 2, 3， 同 时 令 pi2 > 0, pla > 0， 
pai > 0, ps2 > 0, 同时 其 他 转换 概率 均 为 0. 这 条 链 有 一 个 非 周期 的 单一 常 返 类 . 
此 时 局 部 平衡 方程 不 能 成 立 因为 1 到 3 的 平均 转移 频率 都 是 正 的 , 但 逆转 移 频 率 
的 期 望 值 是 0. 
26. * 抽样 马 氏 链 . 考虑 一 个 马 氏 链 X, 其 转移 概率 是 pij, 记 rij(n) 是 n 步 转移 概率 . 
(a) 证 明 对 所 有 的 n >> 1 以 及 1 > 1, 我 们 有 


RR 
k=1 


(b) 假设 有 一 个 非 周期 的 单一 常 返 类 . 我们 对 这 条 马 氏 链 所 有 每 隔 ! 个 转移 取样 , 由 此 
得 到 过 程 Y,, 其 中 次 = Xin. 证 明 这 个 取样 过 程 能 用 一 个 非 周 期 的 单一 常 返 类 马 
氏 链 刻画 , 而 且 转 移 概率 为 ri; (7). 

(ce) 证 明 (b) 部 分 中 的 马 氏 链 和 原 过程 有 同样 的 稳 态 概率 . 

证 明 (a) 我 们 在 X 的 条 件 上 使 用 全 概率 定理 . 我 们 得 到 


rij(nt+D)= P(Xnt = jlXo = 


= P(Xn = klXo =i)P(Xnt = jlXn =k, Xo = 
k=1 

= P(Xn = klXo =iP(Xnt = jlXn = h) 

= Prir(n) ras()), 


在 第 三 个 等 式 中 我 们 用 到 了 马尔 可 夫 性 质 . 

(b) 因为 X% 是 马尔 可 夫 链 , 所 以 , 在 给 定 Xin, 的 条 件 上 , 那么 过 程 的 过 去 (k < in 时 
的 状态 Xk) 与 将 来 的 状态 (k > In 时 的 状态 Xs) 是 独立 的 ， 这 表明 给 定 的 3， 
过 程 的 过 去 (k < n 时 的 状态 你 ) 与 其 将 来 (k > n 时 的 状态 砍 ) 是 独立 的 . 因此 
Y。 有 马尔 可 夫 性 质 . 又 由 对 X 的 假设 , 存在 一 个 时 间 元 使 得 : 对 所 有 的 n >， 
所 有 的 状态 i 以 及 所 有 的 在 X 的 单一 常 返 类 RR 中 的 状态 j, 均 有 


P(X = j|Xo =i) >0. 
这 表明 
P(Y, = jlYo =2) >0, 
对 所 有 的 n > 元, 所 有 的 i 以 及 所 有 的 ; e R. 因此 过 程 Y, 有 一 个 非 周期 的 单一 
(c) 过 各 的 ” 步 转换 概率 rij(n) 收敛 到 稳 态 概率 x;. 过 程 Y, 的 n 步 转换 概率 
形式 为 rij(in), 同样 收敛 到 zj). 这 表明 x; 是 过 程 Y, 的 稳 态 概率 . 


27.” 给 定 一 个 非 周期 的 单一 常 返 类 马 氏 链 Xn, 考虑 一 个 新 的 随机 量 序列 , 序列 在 时 刻 n 时 状 
态 为 (Xn-_1, Xn). 在 新 链 的 状态 是 原 链 的 状态 再 加 上 前 一 个 时 刻 的 状态 . 
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(a) 证 明 新 链 的 稳 态 概率 是 
i = Mipij, 
这 里 x; 是 原 链 的 稳 态 概率 . 
(b) 现在 设 新 的 马 氏 链 是 这 样 定义 的 : 在 时 刻 ” 的 状态 为 (Xp Xn_x+1,… ,Xn), 其 
状态 和 原 链 的 连续 & 步 转移 建立 起 联系 . 将 (a) 的 结论 推广 到 这 个 新 的 马尔 可 夫 链 . 
证 明 (a) 对 新 链 的 每 一 个 状态 (i,7), 我 们 有 


P((Xn-1, Xn) = (i,7)) = P(Xn-1 = iP(Xn = IXn-i =i) = P(Xn 1 = i)pi. 


因为 马 氏 链 X, 有 一 个 非 周期 的 单一 常 返 类 , 并 且 对 所 有 的 i, P(X，-1 = 外) 收敛 
到 稳 态 概率 x;. 这 表明 P((Xn-_1, Xn) = (2 力 ) 收敛 到 zipiy, 这 同样 是 (i, 7) 的 稳 
态 概率 . 

(b) 使 用 乘法 法 则 , 我 们 得 到 


P((Xn_y, "0" , Xn) 一 (io, “0 ,ik)) 三 P(X 一 上 一 56)Dioi 1 
因此 , 与 (a) 部 分 相 类 似 的 讨论 , 状态 (io,… , i) 的 稳 态 概率 为 riopioil Pi 让， 
7.4 节 吸收 概率 和 吸收 期 望 时 间 


28. 某 系 有 m 门 课 , 每 一 学 年 学 生 以 课程 难度 从 1 到 m 进行 排名 , 其 中 排 m 的 最 难 . 但 是 
这 个 排名 是 完全 随机 的 . 因此 , 每 一 学 年 任意 一 门 课程 的 排名 的 分 布 列 是 1,… ,m 上 的 
均匀 分 布 (但 是 , 两 门 课程 的 难度 排名 不 可 能 相同 ). 某 教 授 只 记 住 他 教 过 的 课程 中 难度 
最 高 的 排名 ， 

(a) 求 这 个 教授 记 住 的 排名 的 马 氏 链 的 转移 概率 . 

(b) 求 常 返 状 态 和 非常 返 状 态 . 

(c) 给 定 第 一 学 年 他 拿 到 第 i 名 课程 的 条 件 下 , 求教 授 拿 到 最 高 排名 课程 的 期 望 年 数 ， 
29.” 考 虑 图 7.24 中 的 马 氏 链 . 稳 态 概率 如 下 : 


6 9 6 10 
T2 一 一 一 一 一 . 


T1371 


7.24 习题 29 中 的 转移 概率 图 


假设 过 程 在 第 一 次 转移 前 是 状态 1. 
(a) 经 过 6 次 转移 后 过 程 状态 是 1 的 概率 是 多 少 ? 
(b) 求 过 程 重新 回 到 状态 1 的 总 转移 次 数 的 期 望 值 和 方差 . 
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30.” 


31.” 
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(c) 系统 中 的 转移 1 000 次 之 后 的 状态 既 不 与 转移 999 次 后 的 状态 相同 , 也 不 与 转移 
1 001 次 后 状态 相同 , 求 该 事件 概率 的 近似 值 . 
考虑 图 7.25 中 的 马 氏 链 . 


7.25 “习题 30 中 的 转移 概率 图 


(a) 确定 非常 返 状态 和 常 返 状态 . 同样 , 将 常 返 状态 划分 为 常 返 类 , 如 果 有 周期 的 话 , 也 
将 其 指明 . 
(b) 在 状态 1 开始 时 是 否 存在 稳 态 概率 , 如 果 有 , 请 确定 其 值 . 
(c) 在 状态 6 开始 时 是 否 存 在 稳 态 概率 , 如 果 有 , 请 确定 其 值 . 
(d) 假设 过 程 在 状态 1 开始 , 我 们 在 它 到 达 稳 态 时 开始 观察 . 
(i ) 在 我 们 观察 到 第 一 次 转移 时 , 求 状态 增加 1 的 概率 . 
( 详 ) 在 我 们 观察 到 第 一 次 转移 状态 是 增加 1 的 条 件 下 , 求 观察 到 过 程 转移 到 状态 2 
时 的 条 件 概率 . 
(省) 在 我 们 第 一 次 观察 到 状态 变化 时 , 求 状态 增加 1 的 概率 . 
(e) 假设 过 程 从 状态 4 开始 . 
(i) 对 每 一 个 常 返 类 , 确定 我 们 最 终 达到 每 一 类 时 的 概率 . 
(ii) 求 过 程 第 一 次 达到 常 返 类 时 的 转换 总 次 数 的 期 望 值 . 
吸收 概率 考虑 一 个 马尔 可 夫 链 , 其 状态 要 么 是 非常 返 的 , 要 么 是 吸收 的 . 固定 一 个 吸 
收 状态 s. 证 明 从 状态 i 开始 最 终 达 到 s 状态 时 的 概率 ai 是 以 下 方程 的 唯一 解 . 


as =1, 

ai =0, 对 所 有 的 吸收 态 i 六 s， 

Qi = 2 pijQ;, 对 所 有 的 非常 返 状 态 i 
提示 : 在 证 明 解 的 唯一 性 的 时 候 , 采用 反 证 法 : 如 果 这 里 有 两 个 解 , 找到 一 个 满足 它们 差 
的 方程 , 然后 说 明 这 个 方程 只 有 零 解 . 
证 明 ”在 本 书 中 , 通过 全 概率 定理 , 已 经 指出 ai 满足 这 些 方程 . 为 了 证 明 唯 一 性 , 令 a; 
是 另 一 组 解 , 再 令 6; = a; 一 ai. 用 4 表示 吸收 状态 集合 . 由 于 对 所 有 ;7 € 4 有 6; = 0， 
我 们 得 到 

6i = Dpis6; 一 》 piz6;, 对 所 有 的 非常 返 状态 i 成 立 . 
j=1 i¢A 

把 这 个 关系 套用 m 次 , 我 们 得 到 


6i = 》、 Diji >， Di72 > ， Pjm_1jm ° 6jm- 


j1¥A j2¢A Im 人 人 
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Gl > pis >》 pz Y) pin sm 6ml 
j194 j2¢4 jm#¢A 
=P(X1 ¢ A,.…. ,Xm ¢ AlXo = .|6nl 


S&P(X1 ¢ A ,Xm ¢ AlXo = px | 
J 


以 上 关系 表明 对 所 有 非常 返 状态 i, 均 有 


这 里 


6;| & 8B: 0; 
maxl6s| < b max |6l, 


B=P(X1 ¢ A,... ,Xm ¢ AlXo =i). 


注意 6 < 1, 因为 不 管 初始 状态 是 什么 , Xm 被 吸收 的 概率 是 正 的 . 因此 maxjg 4 |5;| = 0， 
或 者 是 对 所 有 的 不 吸收 的 i 有 as = ad;. 对 所 有 的 吸收 j 我 们 有 oj = a;, 所 以 对 所 有 的 
2 i = Gi. 

32.” 多重 常 返 类 . 考虑 一 个 有 多 个 常 返 类 的 马 氏 链 ， 当然 还 有 一 些 非常 返 状态 .假设 所 有 的 
常 返 类 都 是 非 周 期 的 . 
(a) 对 任意 非常 返 状态 i, 令 ai(k) 是 从 i 开始 到 达 第 个 常 返 类 中 状态 的 概率 . 推导 关 


(b) 
解 


(b) 


33." 


于 ai(k) 的 方程 组 . 

证 明 每 一 个 ” 步 转换 概率 ri;(n) 都 收敛 到 一 个 极限 , 并 讨论 如 何 计算 这 些 极限 . 
(a) 我 们 引入 一 条 新 的 只 有 非常 返 状 态 和 吸收 状态 的 马 氏 链 . 非常 返 状 态 对 应 原始 
链 的 非常 返 状 态 , 而 吸收 状态 对 应 于 原 链 的 常 返 类 . 新 链 的 转移 概率 六 表示 如 下 ; 
如 果 i,j 是 非常 返 状态 , 则 Bi; = pij; 如 果 i 是 非常 返 状态 , & 对 应 常 返 类 , 则 2 
是 i 在 原 链 中 到 达 常 返 类 中 所 有 状态 的 转移 概率 的 和 . 

所 求 的 概率 ai(k) 是 新 链 中 的 吸收 概率 并 由 以 下 公式 给 出 ，; 


ai(k) 二 Bir 十 》， iyay(k)， 对 所 有 的 非常 返 状 态 i 成 立 . 
7 非常 返 
如 果 i,j 是 常 返 态 但 不 属于 同一 类 , rij(n) 总 是 0. 如 果 i,j 是 常 返 态 且 属 于 同一 类 ， 
考虑 由 这 个 常 返 类 的 状态 所 组 成 的 一 个 新 的 马尔 可 夫 链 . 原 马 尔 可 夫 链 的 rij(n) 与 
新 的 马尔 可 夫 链 的 riy(n) 是 相同 的 . 在 新 的 马尔 可 夫 链 中 , rij(n) 收敛 到 状态 7 的 
稳 态 概率 . 如 果 ; 是 非常 返 状 态 , ri;(n) 收敛 到 0. 最 后 如 果 i 是 非常 返 状态 , 7 是 
常 返 的 , 则 rij(n) 收敛 到 以 下 两 个 概率 的 乘积 : (1) 从 i 开始 过 程 到 达 ; 所 在 的 党 
返 类 的 概率 ; (2) 在 开始 状态 在 ; 的 常 返 类 的 条 件 下 , 过 程 到 达 ; 的 稳 态 概率 . 


平均 首次 到 达 时 间 .。 考虑 一 条 单一 常 返 类 的 马 氏 链 , 记 s 是 固定 的 常 返 状 态 . 证 明 下 列 
方程 


ts = 0, 一 了 十 》 pty, 对 所 有 的 i 郑 s， 


i=1 
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是 平均 首次 到 达 时 间 满 足 的 方程 , 且 只 有 唯一 解 . 提示 : 在 证 明 解 的 唯一 性 的 时 候 , 利用 
反 证 法 . 如 果 存 在 两 组 解 , 考虑 两 组 解 之 差 , 找到 使 差 满足 的 一 组 方程 .并 证 明 这 组 方程 
只 有 零 解 . 

解 ” 记 记 是 首次 到 达 ; 的 平均 时 间 , 利用 全 期 望 定理 , 可 以 证 明 它 满足 题目 中 的 方程 组 . 
现在 只 需 证 明 解 的 唯一 性 . 为 了 证 明 唯一 性 , 令 五 是 另 一 组 解 . 对 所 有 i 承 s 


在 一 1 十 》 pt, B=1+), pid, 
了 zs js 
两 者 相 减 , 我 们 得 到 
6 = > ,Di0j， 
j¥s 
这 里 5 = 石 一 女 . 将 这 个 等 式 连续 套用 mm 次 , 得 到 


6i = 》， Piji >， Pjiij2 *** >, Pjm—1im © Ojm. 


1¥s 72 天 s Im 天 s 


因此 , 对 所 有 的 i 去 s， 
Gl < DY) pi 》 Pisa 》 pim_iim " max 105| 


了 1 天 3 IJ2 天 s 了 m 天 3 
=P(X1 天 83" ;Xm zz s|Xo 一 2%) - max |6;|. 
了 


另 一 方面 , 我 们 有 P(X1 头 s,...,Xnm 六 5s|Xo = 让 <1. 这 是 因为 从 任意 状态 开始 s 能 在 
m 步 内 达到 的 概率 为 正 . 这 表明 5 必须 是 0. 

平均 常 返 时 间 和 平衡 方程 。 考虑 一 条 单一 常 返 类 的 马 氏 链 , 记 s 是 固定 的 常 返 状 态 . 对 
任意 状态 i, 令 


其 


34. 


Pi 二 E[ 在 相 邻 两 次 访问 状态 s 之 间 , 访问 状态 i 的 次 数 ]. 


这 里 规定 ps = 1. 
(a) 证 明 对 所 有 的 i, 我 们 有 
pi= DY phphka， 
k=1 
(b) 证 明 数 值 
Tim 


一 2， 
* 
ts 


的 总 和 为 1 且 满 足 平衡 方程 , 这 里 蕊 是 s 的 平均 常 返 时 间 (从 s 开始 第 一 次 回 到 
s 的 期 望 转移 数 ). 


习 题 343 


(c) 证 明 如 果 ma，…… ,rm 是 非 负 的 , 满足 平衡 方程 且 和 为 1, 则 
去 ， 车 i 是 常 返 态 ， 
Ti 二 
， ”车 i 是 非常 返 状 态 . 


这 里 共 是 i 的 平均 常 返 时 间 . 
(d) 证 明 (b) 部 分 的 分 布 是 满足 平衡 方程 的 唯一 概率 分 布 . 
注意 : 本 题 不 仅仅 是 提供 了 满足 平衡 方程 的 概率 分 布 的 存在 性 和 唯一 性 的 另 一 种 证 明 , 也 
为 稳 态 概率 和 平均 常 返 时 间 之 间 建 立 了 一 种 直观 的 联系 . 主要 思路 是 把 整个 过 程 分 割 成 
“图 ”, 每 当 常 返 状态 s 被 访问 , 那么 一 个 新 图 就 会 开始 . 状态 s 的 稳 态 概率 就 可 以 解释 
为 访问 状态 s 的 长 期 的 期 望 频率 ， 长 期 的 期 望 频率 与 两 次 连续 访问 。 之 间 的 平均 步 数 
( 即 平均 常 返 时 间 ) 成 反比 例 . 参见 (c). 进一步 地 , 在 某 一 个 圈 内 , 如果 一 个 状态 i 能 被 
访问 到 期 望 频率 是 另 一 个 状态 4 的 两 倍 , 那么 , 状态 i 的 长 期 期 望 频率 mi 也 应 该 是 Ti 
的 两 倍 . 因此 , 稳 态 概率 x; 应 该 和 在 一 圈 中 期 望 访 问 次 数 m 成 比例 . 
解 (a) 考虑 马 氏 链 X。 初始 状态 Xo = s. 我 们 首先 证 明 对 所 有 的 i 


pi= 2 P(X #8, , Xn-1 Fs, Xn =i). 
n=1 
为 了 验证 这 个 公式 , 我 们 首先 考虑 i 头 。 的 情况 , 令 1。 是 随机 变量 , 如 果 Xi 尖 
3,… ,Xn-1 关 5,Xn = i 则 取 值 为 1, 否则 取 0. 因此 在 访问 状态 s 前 访问 状态 i 
的 次 数 为 于 2; 三- 因此 , ” 


pi=E ba =》 BE] = PX #8,..., Xn_1 #8, Xn =i). 
n= 二 1 n= 二 1 


n=1 
当 i = s, 对 不 同 值 的 n, 事件 


{Xi1 天 3,…: ;nl x 5, Xn = s} 


四 下 面 将 用 到 无 穷 和 运算 和 期 望 运算 的 可 交换 性 , 现在 来 证 明 这 个 事实 . 对 任意 的 > 0， 


ba -可 -| by | -unre| > | 


n=k 二 1 n=1 n= 二 kk 十 1 


令 工 是 序列 {X1,X2,…} 中 第 一 次 等 于 s 的 时 刻 . 因此 ， 


=| 3 | - ,3 ee-o| > mr < pr 


n=k+1 t=k+2 =k 十 1 t=k++2 
既然 平均 常 返 时 间 多 tP(T = 是 有 限 的 , 当 kk 一 oo 时 ， 22 tP(T = 汪 的 极限 等 于 
0, 从 而 Eopy1 机 | 一 0. 这样, 当 一 o0 时 


oo 


E 也 | = >》， ElInl. 


n=1 
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构成 样本 空间 的 一 个 分 割 . 因此 ， 
Sp(x, #¥ 8, ,Xn-1 A 5, Xn = ss)=1= ps, 
了 2 一 工 


就 完成 了 我 们 声明 的 证 明 . 
我 们 下 一 步 对 n > 2 的 情况 使 用 全 概率 公式 ， 


P(X1 # 8, ,Xn_1 #58, Xn = = >》_ P(X #5," ,Xn_2 #58, Xn-1 = k)pki. 


天 天 5 
因此 ， _ 
pi=D P(X #8, ,Xn-1 #5, Xn = 
n 二 1 oo 

二 Dei 十 >， P(X1 #5, ,Xn-l #5, Xn = 分 
n=2 

一 用 si 十 》， >， P(X1 # SS ,Xn_2 天 8, Xn_1i 二 hh)pri 
n=2 kxs 

=psi+ DY phi P(X #8, ,Kn 2 #8, Xn-1 = k) 
kz¥s n=2 

三 pspsi 十 》 pkipk 


ks 
一》 pkpri. 
k=1 
(b) 用 (a) 部 分 建立 的 关系 两 边 同 时 除 以 世 , 可 得 


mm 
7 一 》 TkPRi, 
天 一 1 


这 里 mi = pi/ 奏 ， 因 此 x; 是 这 个 平衡 方程 的 解 . 进一步 地 ，s 是 非 负 的 ， 显 然 
pi= 妇 或 者 mi = 1. 因此 (mi,… ,rm) 是 一 个 概率 分 布 . 

(c) 考虑 一 个 满足 平衡 方程 的 概率 分 布 (xi,… ,mm). 固定 一 个 常 返 状 态 s, 令 芝 是 s 
的 平均 常 返 时 间 , 并 令 刀 是 从 不 是 s 的 状态 i 到 状态 s 的 平均 首次 到 达 时 间 . 我 
们 将 证 明 mst* = 1. 事实 上 , 我 们 有 


丰 一 1 十 》 pajty， 
了 天 s 


i 二 1 + pisty, 对 任意 的 六 s. 
了 天 as 
把 这 些 等 式 分 别 乘 以 rs, mi, 然后 相 加 , 我 们 得 到 
Tt 十 > ， Aiti 二 1 十 >》， Ni pasty. 


izxs i=1 了 天 3 
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35.” 


运用 平衡 方程 , 右边 等 于 


1+ my pity = 1+ Dt Dmipsy 一 1+ din. 
i=1 和 zs js il 了 zs 
结合 最 后 两 个 等 式 , 我 们 得 到 xst: = 1. 
因为 概率 分 布 (m1,……. ,rm) 满足 平衡 方程 , 如 果 初 始 状态 Xo 是 根据 这 个 分 布 来 选 
取 的 ,XX 的 分 布 将 与 Xo 具有 相同 的 分 布 . 如 果 过 程 是 从 常 返 状态 i 开始 的 ， 当 
n 一 > oo 时 , Xn 在 此 状态 的 概率 趋 于 0. 这 表明 我 们 必须 有 x; = 0. 
(d) (b) 部 分 表明 至 少 存在 一 个 概率 分 布 满足 平衡 方程 .(c) 部 分 表明 只 有 一 个 这 样 的 概 
率 分 布 . 
马尔 可 夫 链 的 大 数 定律 . 考虑 一 个 有 限 状态 的 马尔 可 夫 链 ， 只 有 一 个 常 返 类 , 且 是 非 周期 
的 . 固定 状态 s 定义 六 为 第 次 访问 状态 s 的 时 间 , VV, 为 前 n 次 转移 时 , 访问 s 的 
的 总 次 数 . 
(a) 证 明 : Yi/k 以 概率 1 收敛 到 状态 s 的 平均 常 返 时 间 女 . 
(b) 证 明 : 你 /mn 以 概率 1 收敛 到 1/ 熙 . 
(c) 建立 Vi/n 的 极限 与 s 的 稳 态 概率 之 间 的 关系 . 
解 (a) 固定 初始 状态 可 能 与 s 不 同 . 因此 随机 变量 六.y1 一 ,kk > 1 对 应 于 相 邻 
两 次 访问 s 的 时 间 间 隔 . 由 马尔 可 夫 性 质 (给 定 当前 状态 , 未 来 与 过 去 独立 ), 过 程 
在 回访 s 时 相当 于 重新 开始 , 所 以 随机 变量 Yi.11 -Yi 是 相互 独立 、 同 分 布 的 随机 
变量 , 而 且 均值 等 于 平均 常 返 时 间 世 . 运用 大 数 定律 , 以 概率 1 地 , 有 


im im 站 -im 一 区 二 十 0 一下- - 


k—o0 天 大 一 oo k—o0 


0 十 共 ， 


首先 我 们 将 固定 样本 空间 (马尔 可 夫 链 的 所 有 轨道 的 集合 ) 的 一 个 轨道 来 论证 . 记 
丈 和 Vi 的 取 值 分 别 为 y 和 vn. 进一步 地 , 根据 结论 (a), 假设 序列 y/k 收敛 到 
如 , 而 且 具 有 这 种 性 质 的 轨道 集合 的 概率 为 1. 现在 取 定 这 样 的 时 间 n: 位 于 第 大 次 
访问 s 的 时 间 和 第 十 1 次 访问 s 的 时 间 之 间 , 即 


(b 


_— 


Yk SN < Ykt1. 


对 于 这 样 的 n, wn = 大, 我 们 有 


1 1 1 
~ < 一 一 ) 
Yk+1 nN Yk 
从 而 
kh mk 


注意 
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= lim .lim im 上 故 
KR 一 co Yk KR 一 oo Yktl KR 一 co 下 十 本 一 co Yk t* 
令 n 赵 于 无 穷 大 , 则 满足 条 件 ys < n < yrtt 的 & 也 必然 趋 于 无 穷 大 . 序列 vn/n 
介 于 两 个 都 趋 于 1/t* 的 序列 之 间 , 因此 序列 vn/n 也 同样 趋 于 极限 1/ 共 . 而 这 个 性 
质 对 于 概率 为 1 的 轨道 集合 中 的 任 一 个 轨道 都 成 立 , 故 可 以 得 出 Vi/n 以 概率 1 收 
但 到 1/ 龙 . 

(c) 在 习题 35 中 , 已 经 证 明了 1/ = ms. 这 说 明了 Vi/n 以 概率 1 收敛 到 rs. 注解 : 
人 们 也 试图 使 用 另 一 种 方法 来 证 明 你 /nm 以 概率 1 收敛 到 xs. 方法 如 下 : 由 (b) 知 
道 VW,/n 收 敏 , 又 E[Vi,/n] 收敛 到 r。 (参见 7.3 节 中 的 稳 态 概率 之 长 期 期 望 频率 的 
解释 ), 故 Va/n 以 概率 1 收敛 到 r。 但 是 这 种 推导 方法 是 不 对 的 . 这 是 因为 一 个 随 
机 变量 序列 Y。 以 概率 1 收敛 到 一 个 常数 , 而 序列 的 期 望 序列 却 有 可 能 收敛 到 另 一 
个 常数 . 例子 如 下 . 设 X 是 单位 区 间 [0,1] 内 的 均匀 分 布 随机 变量 . 定义 


Y 0， 当 和 > 1/n 时 ， 
本 mn， 当天 < 1/m 时 . 


只 要 X 非 零 (概率 1 发 生 ), 则 序列 5 收 敏 到 0. 另 一 方面 , 可 以 验证 ， 
L . &  >， 对 所 有 的 n 都 成 立 


ElYn] = P(X < 1/n)E[Ys|X < 1/m] = = 


7.5 节 ”连续 时 间 的 马 氏 链 


36. 


37. 


38. 


39. 


一 名 修理 工人 需要 修理 一 套 有 mm 台 相 同 机 器 的 设备 ， 修 理 损坏 机 器 的 时 间 为 指数 分 布 ， 

均值 为 1/ 和 .机 器 启动 后 正常 工作 直到 损坏 的 时 间 也 是 随机 变量 , 其 分 布 为 一 指数 分 布 ， 

均值 为 1/4. 损坏 和 修理 时 间 是 相互 独立 的 . 

(a) 求 所 有 机 器 都 处 于 修理 状态 的 稳 态 概率 . 

(b) 在 稳 态 情况 下 , 计算 机 器 处 于 工作 状态 的 平均 台数 . 

空 出 租车 路 过 某 路 口 的 规律 是 一 个 泊 松 过 程 , 通过 的 车 辆 数 服从 强度 为 每 分 钟 2 辆 的 泊 

松 分 布 . 乘客 达到 路 口 的 过 程 也 是 泊 松 过 程 , 均值 为 每 分 钟 1 人 . 而 且 如 果 前 面 只 有 少 于 

4 名 乘客 , 乘客 就 会 等 待 出 租车 ; 否则 他 们 就 会 离开 而 不 回来 , 佩 涅 在 一 给 定时 间 到 达 该 

路 口 . 假设 过 程 进入 稳 态 , 求 出 她 在 加 入 等 待 队列 条 件 下 的 期 望 等 待 时间 ， 

m 个 用 户 共用 一 个 电脑 系统 . 用 户 有 两 种 状态 , 一 种 是 “思考 状态 ”, 持续 时 间 为 独立 的 

指数 分 布 , 参数 为 \, 另 一 种 是 “活跃 模式 ”, 需要 先 递交 一 份 服务 请 求 . 服务 器 一 次 只 能 

接收 一 种 请 求 , 且 在 完成 服务 之 前 不 会 接收 其 他 用 户 要 求 . 服务 请 求 的 时 间 为 独立 的 指 

数 分 布 随机 变量 ,参数 为 j, 而 且 与 用 户 的 思考 时 间 也 是 独立 的 . 建立 一 条 马 氏 链 , 求 出 

等 待 请 求 用 户 个 数 的 稳 态 分 布 (包括 正在 受理 的 服务 ). 

考虑 一 个 连续 时 间 马 氏 链 , 其 转移 率 为 w, 对 所 有 的 i 相同 . 假设 过 程 只 有 一 个 常 返 类 . 

(a) 试 解释 为 什么 转移 时 间 序 列 Y, 是 泊 松 过 程 . 

(b) 证 明 马 尔 可 夫 链 X(t) 的 稳 态 概率 和 嵌入 马 氏 链 X" 的 稳 态 概率 是 一 样 的 . 

解 (a) 用 v 表示 转移 率 v; 的 共同 值 . 序列 Y, 是 独立 指数 分 布 时 间 区 间 序 列 , 参数 为 
v. 因此 它们 能 和 到 达 时 间 联 系 起 来 , 那 也 是 泊 松 过 程 , 强度 为 x. 
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(b) 这 条 连续 时 间 链 的 平衡 和 归 一 化 方程 组 为 
Tj 》 gj = > Theghy 了 一 1 … CAD 


Ey 5 
7 


1 = rk. 


k=1 


通过 关系 式 gj = vpjx, 约 掉 公共 因子 v, 这 一 组 等 式 可 写 为 
Ty >》 ,2 和 = mkphj 了 二 1,... ;mm, 


pe kt 
1= >, Nk. 
k=1 
Tj(1 ~ pi) = rapky, j= 1 ,m, 
天 了 
或 者 


m 
Tj=D TkPRI, j= 1,.…,m. 
k=1 


这 就 是 嵌入 马 氏 链 的 平衡 方程 ， 因 为 它 是 非 周期 的 单一 常 返 类 , 所 以 平衡 方程 只 有 
唯一 解 . 因此 x; 也 是 这 条 嵌入 马 氏 链 的 稳 态 概率 . 
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统计 推断 是 从 观测 数据 推断 未 知 变量 或 未 知 模型 的 有 关 信 息 的 过 程 . 本 章 和 
第 9 章 由 在 : 
(a) 评价 统计 学 中 两 种 主要 方法 ( 贝 叶 斯 统计 推断 和 经 典 统计 推断 ) 的 优 缺 点 ， 
区 别 和 类 似 之 处 ; 
(b) 介绍 统计 推断 的 主要 内 容 (参数 估计 、 假 设 经 验 和 显著 性 检验 ); 
(c) 讨论 统计 学 中 最 重要 的 方法 (最 大 后 验 概率 准则 , 最 小 均 方 估计 , 最 大 似 然 
估计 , 回归 , 似 然 比 检验 , 等 等 ); 
“(gq) 举例 说 明 如 何 运用 理论 . 


1. 概率 与 统计 


统计 推断 与 概率 理论 在 许多 重要 方面 存在 不 同 . 概率 论 是 建立 在 第 1 章 公理 
的 基础 上 的 自我 完善 的 数学 课题 . 在 概率 推理 中 , 我 们 假设 有 一 个 完整 的 特定 概率 
模型 满足 这 些 概率 公理 . 然后 运用 数学 方法 对 这 个 概率 模型 进行 量化 , 以 及 回答 感 
兴趣 的 问题 . 特别 地 , 一 些 模棱两可 的 问题 只 有 唯一 的 正确 答案 , 即使 这 个 答案 有 
时 也 很 难 发 现 . 概率 模型 从 本 质 上 看 也 无 需 与 实际 相 一 致 (虽然 模型 有 用 会 更 好 一 
些 ) 


统计 学 却 不 是 这 种 情况 , 可 以 说 统计 学 是 艺术 的 一 部 分 ， 对 一 个 具体 的 问题 ， 
存在 很 多 合理 的 方法 , 可 得 出 不 同 的 结论 . 一 般 而 言 , 除非 人 们 可 对 所 研究 的 问题 
施加 一 些 假设 或 者 附加 约束 条 件 , 在 这 些 条件 下 进行 推断 , 得 到 “理想 ”的 结论 , 否 
则 没有 一 个 绝对 的 准则 来 选择 “最 好 ”的 方法 .比如 , 只 知道 股票 市 场 在 最 近 5 年 
回报 率 的 历史 数据 , 就 不 会 有 一 个 “最 好 ”的 方法 来 预测 下 一 年 的 回报 率 . 
所 以 人 们 把 寻找 “正确 ”的 方法 局 限 在 能 得 到 一 些 理想 的 性 质 的 方法 上 , 比如 
当 数 据 的 样本 量 在 无 穷 大 的 情况 下 能 做 出 正确 的 推断 ， 判 断 一 种 方法 优 于 其 他 方 
法 可 以 考虑 如 下 几 个 因素 : 性 质 优良 , 过 去 的 经 验 , 共同 的 观点 , 以 及 统计 学 家 对 一 
种 特定 方法 解决 一 类 特殊 的 问题 方面 形成 的 共识 . 我 们 将 重点 介绍 一 些 最 流行 的 
方法 , 并 介绍 对 它们 进行 分 析 和 比较 的 主要 方法 . 


2. 贝 叶 斯 统计 与 经 典 统计 


在 统计 邻 域 , 有 两 种 突出 但 对 应 的 思想 学 派 : 贝 叶 斯 学 派 和 经 典 学 派 (也 称 频 
率 学 派 ). 他 们 之 间 最 重要 的 区 别 就 是 如 何 看 待 未 知 模型 或 者 变量 . 贝 叶 斯 学 派 的 
观点 是 将 其 看 成 是 已 知 分 布 的 随机 变量 , 而 经 典 统计 学 派 的 观点 是 将 其 看 成 未 知 的 


第 8 章 贝 叶 斯 统计 推 疡 349 


待 估计 的 量 . 

贝 叶 斯 方法 主要 是 想 将 统计 领域 拉 回 到 概率 论 的 王国 里 , 使 得 每 个 问题 都 只 有 
唯一 的 答案 . 特别 地 , 当 人 们 和 欲 对 未 知 模型 进行 推断 时 ， 贝 叶 斯 方法 将 该 模型 看 成 
是 随机 地 从 已 知 的 一 类 模型 中 选 出 来 的 ， 处 理 方法 是 引入 一 个 随机 变量 9 来 刻画 
该 模型 , 然后 构造 一 个 先 验 概 率 分 布 pe (9). 在 已 知 数据 x 的 情况 下 , 人 们 原则 上 使 
用 贝 叶 斯 公式 来 推导 后 验 概率 分 布 pejx (9|z). 这 样 就 抓 住 了 z 能 提供 关于 9 的 所 
有 信息 . 

相反 , 经 典 统计 方法 将 未 知 参数 9 视 为 常数 , 但 是 未 知 就 需要 估计 . 然后 经 典 
统计 的 目标 就 是 提出 参数 9 的 估计 方法 , 且 保 证 具有 一 些 性 质 . 本 书 介 绍 一 个 重要 
的 概念 . 它 与 本 书 介 绍 的 其 他 方法 中 使 用 的 概念 的 区 别 是 : 经 典 方法 处 理 的 不 是 一 
个 概率 模型 , 而 是 有 多 个 待 选 的 概率 模型 , 每 个 标记 为 9 的 一 个 可 能 值 . 

两 个 学 派 的 争论 已 经 持续 一 个 世纪 了 , 经 常 争论 的 是 哲学 思想 . 在 两 派 的 争论 
过 程 中 , 每 派 都 构造 一 些 例子 来 说 明 对 方 学 派 的 方法 有 时 会 得 到 不 合理 的 , 或 者 不 
吸引 人 的 结论 . 我 们 简短 地 回顾 两 个 学 派 争 论 的 观点 . 

假设 我 们 要 通过 噪声 实验 的 手段 来 测量 一 个 物理 常数 , 比如 电子 的 质量 . 经 典 
统计 学 家 认为 电子 的 质量 尽管 未 知 , 但 也 只 是 一 个 常数 , 所 以 不 能 把 它 看 成 随机 变 
量 ， 而 贝 叶 斯 统计 学 家 却 给 它 一 个 先 验 分 布 , 来 反映 和 人们 对 电子 质量 的 已 有 知识 . 
比如 , 如 果 我 们 已 经 从 历史 实验 中 获知 电子 质量 的 大 概 范围 , 则 可 以 将 先 验 分 布 集 
中 在 那个 范围 内 . 

经 典 学 派 统 计 学 家 经 常 反对 这 种 挑选 一 个 特定 先 验 的 随意 性 ， 贝 叶 斯 统计 学 
家 反 驭 说 , 任何 统计 推断 往往 隐 含 着 一 些 先 验 . 进一步 地 , 在 某 些 例子 中 , 先 验 分 布 
如 果 是 某 个 特殊 选 定 的 分 布 , 经 典 方法 实质 上 是 与 贝 叶 斯 方法 等 价 的 . 通过 将 所 有 
的 假设 都 以 先 验 的 形式 放 在 一 起 , 贝 叶 斯 统计 学 家 主张 将 这 些 假设 公开 的 , 并 认为 
它们 是 经 得 起 推荐 的 . 

最 后 , 从 实际 的 角度 考虑 . 在 许多 情况 下 , 贝 叶 斯 方法 在 计算 方面 很 棘手 , 比如 
需要 计算 多 维 的 积分 . 另 一 方面 , 随 着 快速 计算 逐渐 为 人 们 所 用 , 贝 叶 斯 统计 学 派 
的 大 量 最 新 研究 成 果 就 集中 在 如 何 使 贝 叶 斯 方法 具有 可 行 性 上 . 


3. 模型 推断 和 变量 推断 


统计 推断 的 应 用 主要 有 两 种 类 型 : 模型 推断 和 变量 推断 在 模型 推断 中 , 研究 
的 目标 是 物理 现象 或 过 程 , 基于 得 到 的 数据 为 这 些 物理 现象 或 过 程 构造 或 者 验证 一 
个 模型 (比如 行星 运行 的 是 否 为 椭 贺 轨道 )， 利用 这 样 的 模型 就 可 以 对 未 来 进行 预 
测 , 或 者 推 知 许多 未 知 的 原因 . 在 变量 推断 中 , 人 们 使 用 许多 相关 的 , 或 者 带 有 噪声 
的 信息 估计 一 个 或 者 多 个 变量 值 (比如 , 若 给 定 一 些 GPS 的 信息 , 那么 我 们 现在 的 
位 置 在 什么 地 方 ). 

模型 推断 与 变量 推断 的 区 别 不 是 很 明显 . 比如, 将 模型 描述 为 一 组 变量 的 形式 ， 
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我 们 就 可 以 将 模型 推断 的 问题 转换 成 变量 推断 的 问题 . 在 很 多 情况 下 , 我 们 将 不 强 
调 它们 的 区 别 , 这 是 因为 相同 的 方法 可 以 同时 使 用 在 这 两 种 类 型 的 推断 中 . 

在 有 些 应 用 中 , 需要 同时 考虑 这 两 种 推断 问题 . 比如 , 我 们 收集 了 一 些 原 始 数 
据 , 使 用 数据 来 建立 一 个 模型 , 然后 利用 模型 去 推 知 相关 变量 值 . 
例 8.1 (噪声 信道 ) ”发 送 端 发 送 一 串 二 进 制 信号 s € {0,1}, 接收 端 观 测 到 


Xi = asi + Wi, t= 1,... ,Nn, 


其 中 Wi 是 零 均 值 的 正 态 随机 变量 (反映 信道 的 噪声 ), a 是 实数 (用 于 刻画 信道 的 
衰减 率 ). 在 模型 推断 中 , a 是 未 知 的 . 发 送 端 发 送 一 组 测试 信号 s1, s2,…… ,sn， 接收 
端 是 知道 发 送 端 发 送 的 信号 的 . 现在 的 任务 是 基于 观测 值 Xi,… , X，, 接收 信号 方 
欲 估计 a 的 值 . 这 就 是 模型 推断 的 任务 : 建立 这 个 信道 的 模型 . 

另 一 个 方面 , 在 变量 推断 中 , a 是 假设 已 知 的 (可 能 是 因为 如 上 利用 测试 数据 
推断 出 来 了 ). 接收 方 观测 到 数据 X1,… , X 后 , 欲 估计 st, … ,sn 的 值 . 这 就 是 变 
量 推断 的 任务 : 确定 s1,… ,sn 的 值 . 口 


4. 统计 推断 问题 的 简单 分 类 


这 里 我 们 描述 一 些 不 同类 型 的 统计 推断 问题 . 在 估计 问题 中 , 模型 是 完全 确定 
的 , 只 是 有 一 些 未 知 的 , 可 能 是 多 维 的 参数 9, 需要 去 估计 . 参数 既 可 以 看 成 随机 变 
量 ( 贝 叶 斯 方法 ), 也 可 以 看 成 是 未 知 常数 (经 典 方法 ). 通常 的 目标 就 是 得 到 9 的 佑 
计 , 使 得 它 在 某 种 意义 上 与 真实 值 接近 . 比如 

(a) 在 例 8.1 噪声 信道 问题 中 , 使 用 测试 序列 知识 和 观测 值 去 估计 a; 

(b) 使 用 民意 测验 数据 , 估计 一 个 选举 地 方 内 选民 支持 候选 人 4, 而 反对 候选 
人 B 的 比例 ; 

(c) 基于 历史 股票 市 场 数据 , 估计 一 个 特定 股票 的 价格 每 日 走势 的 均值 和 方差 ; 

在 二 重 假设 检验 问题 中 , 从 两 个 假设 出 发 , 运用 得 到 的 数据 去 判断 这 两 个 中 哪 
一 个 是 正确 的 . 比如 

(a) 在 例 8.1 噪声 信道 问题 中 , 使 用 a 的 知识 和 X; 去 判断 s; 是 0 还 是 1; 

(b) 给 定 一 个 带 有 噪声 的 图 片 , 判断 图 片 中 是 否 有 人 ; 

(c) 给 定 有 两 种 不 同 的 医疗 处 理 方法 的 临床 实验 数据 , 判断 哪 种 疗法 比较 有 效 . 

更 一 般 地 , 在 m 重 假设 检验 问题 中 , 有 m 个 对 应 的 假设 . 判断 一 种 方法 的 好 
坏 的 依据 是 该 方法 做 出 错误 结论 的 概率 大 小 . 当然 , 贝 叶 斯 方法 和 经 典 方法 都 是 可 
以 利用 的 . 

在 本 章 中 , 我 们 重点 介绍 贝 叶 斯 估计 问题 , 但 也 讨论 假设 检验 问题 . 在 第 9 章 
中 , 除了 讨论 估计 问题 外 , 我 们 还 要 讨论 更 广 的 假设 检验 问题 . 我 们 只 是 介绍 性 的 
讨论 , 远 远 不 能 满足 实际 中 存在 的 统计 推断 问题 的 需要 . 为 说 明 实际 问题 的 广泛 性 ， 
考虑 具有 形式 Y = 9(X) + W 的 模型 , 该 模型 涉及 两 个 随机 变量 X 和 了 , 其 中 Ww 
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是 零 均 值 噪声 , 9 是 需要 估计 的 未 知 函 数 . 这 类 问题 , 未 知 目标 (比如 这 里 的 函数 9) 
是 不 能 表述 为 固定 数目 的 参数 , 称 为 非 参数 统计 推断 问题 , 就 不 在 本 书 考虑 范围 之 
内 了 . 


本 章 中 的 主要 术语 , 问题 以 及 方法 
。 贝 叶 斯 统计 将 未 知 参数 视 为 已 知 先 验 分 布 的 随机 变量 . 
。 在 参数 估计 中 , 对 参数 进行 估计 , 使 得 在 某 种 概率 意义 下 估计 接近 真实 值 . 
。 在 假设 检验 中 , 未 知 参数 根据 对 应 的 假设 可 能 取 有 限 个 值 , 人 们 去 选择 其 
中 一 个 假设 , 目标 是 使 犯错 误 的 概率 很 小 . 
。 贝 叶 斯 推断 的 主要 方法 : 
(a) 最 大 后 验 概率 (MAP) 准 则 : ”在 可 能 的 参数 /假设 的 取 值 范围 内 , 选 
择 一 个 在 给 定数 据 下 , 具有 最 大 化 条 件 概 率 / 后 验 概率 的 值 (参见 8.2 
节 ); 
(b) 最 小 均 方 (LMS) 估 计 : 选择 数据 的 一 个 估计 量 或 者 函数 , 使 得 参数 
与 估计 之 间 的 均 方 误差 达到 最 小 (参见 8.3 节 ); 
(c) 线性 最 小 均 方 (LMS) 估 计 : 选择 数据 的 一 个 线性 函数 , 使 得 参数 与 
估计 之 间 的 均 方 误差 达到 最 小 (参见 8.4 节 ). 这 可 能 会 得 到 更 高 的 均 
方 误差 , 但 是 计算 简单 , 因为 计算 过 程 只 依赖 于 相应 随机 变量 的 均值 、 
方差 和 协 方差 . 
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在 贝 叶 斯 推断 中 , 感 兴趣 的 未 知 量 记 为 6, 视 其 为 一 个 随机 变量 , 或 者 随机 变 
量 的 有 限 集合 . 这 里 6 代表 物理 量 , 比如 车 辆 的 位 置 和 速度 , 也 可 代表 一 个 概率 模 
型 的 未 知 参数 集合 . 简单 而 言 , 在 没有 明确 标明 的 情况 下 , 8 视 为 一 个 简单 的 随机 
变量 . 

我 们 的 目标 就 是 基于 观测 到 相关 随机 变量 的 值 X = (Xi1,… , X) 来 提取 9 
的 信息 . 我 们 称 X= (X1,… , X) 为 观测 值 , 测量 值 , 或 者 观测 向 量 . 为 此 , 假定 我 
们 知道 @ 和 X 的 联合 分 布 . 等 价 地 , 假定 我 们 已 知 

(a) 先 验 分 布 pe 或 者 fe, 这 要 看 6 是 离散 的 , 还 是 连续 的 ; 

(b) 条 件 分 布 pxle 或 者 fxle, 同样 这 也 要 看 6 是 离散 的 , 还 是 连续 的 . 

一 旦 X 的 一 个 特定 值 z 观测 到 后 , 贝 叶 斯 推断 问题 的 完整 答案 就 由 6 的 后 
验 分 布 pelx(glz) 或 者 Jelx(glz) 来 决定 , 见 图 8.1. 这 个 分 布 可 以 使 用 贝 叶 斯 法 则 
来 计算 . 在 已 经 得 知 的 信息 下 , 它 抓 住 了 关于 6 的 一 切 信息 , 从 而 成 为 了 未 来 分 析 
的 起 点 . 
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图 8.1 贝 叶 斯 推断 模型 的 总 结 . 起 点 是 9 和 观测 X 的 联合 分 布 , 或 者 等 价 的 说 法 是 先 验 分 
布 和 条 件 分 布 列 /密度 函数 .已 知 X 的 观测 值 z 后 , 运用 贝 叶 斯 法 则 计算 后 验 分 布 
列 / 密 度 函 数 ， 后 验 分 布 可 用 来 回答 更 多 的 推断 问题 . 比如 计算 © 的 估计 , 相关 的 概 
率 和 误差 方差 


贝 叶 斯 推断 的 总 结 
。 起 点 是 未 知 随机 变量 日 的 先 验 分 布 pe 或 者 fe. 
。 得 到 观测 向 量 X 的 pxle 或 者 fxje. 

。 一 旦 XX 的 一 个 特定 值 z 观测 到 后 , 运用 贝 叶 斯 法 则 计算 9 的 后 验 分 布 . 


在 此 我 们 提醒 大 家 注意 的 是 : 针对 8 和 X 的 离散 性 和 连续 性 的 不 同 组 合 , 贝 
叶 斯 法 则 有 4 种 不 同 的 形式 . 现在 我 们 引用 下 来 , 便于 使 用 . 然而 , 4 种 形式 本 质 
上 是 类 似 的 , 我 们 只 须 把 最 简单 的 形式 (所 有 变量 都 是 离散 的 ) 理解 清楚 , 对 其 余 情 
况 只 须 做 一 个 概念 的 对 换 . 在 遇 到 连续 变量 时 , 我 们 只 须 将 分 布 列 奉 换 成 密度 函数 ， 
把 求 和 换 成 积分 . 进一步 地 , 如 果 8 是 多 维 的 话 , 相应 的 求 和 或 者 积分 就 是 多 重 求 
和 或 者 多 维 积分 . 


贝 叶 斯 法 则 的 4 种 形式 
。 昌 离散 , XX 离散 : 


pe()pxletzlo) 
Peixt 他 一 > ope(l)pxle(zl0) 


。 9 离散 , 碟 连续 : 


pex (0lz) = 2 fl) 
™ D0 pel(0')fxle(z|0) 


。 昌 连续 , XX 离散 : 


fe(0)pxie (zl0) 


felx (0l7) = TFo(0 pxie (lo a 


。 日 连续, XX 连续 ; 


fe(9)fxle(z|0) 


fox Ol®) = J jo") fxle al) am 
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下 面 举 一 些 例子 来 说 明 如 何 计算 后 验 分 布 . 
例 8.2 罗密欧 和 朱丽叶 开始 约会 . 但 是 朱丽叶 在 任何 约会 中 都 可 能 迟到 , 迟到 时 
间 记 为 随机 变量 X, 服从 区 间 [0, 69| 上 的 均匀 分 布 , 参数 9 是 未 知 的 , 是 随机 变量 6 
的 一 个 值 . 9 是 在 0 和 1 小 时 之 间 均 匀 分 布 . 假设 朱丽叶 在 第 一 次 约会 中 迟到 了 z， 
那么 罗密欧 如 何 利用 这 个 信息 去 更 新 6 的 分 布 . 

这 里 先 验 密度 函数 是 


<0<1, 
0 {eee 
以 及 观测 值 的 条 件 密度 函数 是 
1/6， 若 0g<zx<9，, 
0， ”其 他 . 


注意 , je(b)Jxle(zl6) 只 有 当 0<z< 60<1 时 非 零 ,运用 贝 叶 斯 法 则 可 得 ， 对 任意 
的 > e [0,1], 后 验 密度 函数 是 


jxletzlg) = | 


fe (0)fxje (zl0) 1/b 1 、 
0 i 一 二 入 0 和 1， 
felx (0|z) 玉 fo(O)fxlo(zlo 0 pay ™ 9 Tlogal’ 当 z 和 gbg 芝 1 


且 当 9<z 或 者 0 > 1 时, Jelx(bglz) = 0. 

现在 考虑 前 n 次 约会 情况 所 引起 的 变化 . 假设 朱丽叶 迟到 的 时 间 记 为 X1,…… ， 
Xn, 在 给 定 6 = 0 条 件 下 , 它 是 区 间 [0,9| 的 均匀 分 布 , 且 条 件 独立 ， 记 达 一 
(Xi1, 四 ,Xn), 二 (x1, "0 , Tn). 类 似 于 n= 二 1 的 情形 ， 我 们 有 
1/0”， 若 <90<1, 
0， 其 他 ， 


其 中 z= max{z1,… ,Zn}. 后 验 密度 函数 是 


Jxie(zl9) = | 


c(z)/0"， 基 <09<g<1, 
Jelx(olz) = 
0， 其 他 ， 


其 中 c(z) 是 归 一 化 常数 , 只 依赖 于 z: 
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例 8.3 ( 正 态 随机 变量 公共 均值 的 推断 ) ” 设 随 机 变量 观测 值 X = (Xi1,… ,Xn)， 
具有 相同 的 均值 , 但 是 均值 未 知 , 需要 估计 . 假设 给 定 均 值 的 条 件 下 , X; 是 正 态 的 ， 
且 相 互 独立 , 方差 分 别 为 o7,.… ,o2. 使 用 贝 叶 斯 方法 , 我 们 对 均值 进行 建 模 , 设 X; 
的 公共 均值 为 随机 变量 6, 且 已 知 其 先 验 分 布 . 具体 而 言 , 我 们 假设 随机 变量 6 的 
分 布 为 正 态 分 布 , 均值 已 知 为 zo, 方差 为 已 知 cl. 

为 将 来 引用 , 注意 到 我 们 的 模型 等 价 于 下 列 形式 


Xi=O+Wi, i=1,..,n, 


其 中 随机 变量 9, WW ,… ,Wi 相互 独立 , 且 是 正 态 的 , 均值 和 方差 均 已 知 . 特别 地 ， 
对 任意 的 b， 


E[Wi] = EIWi|© = 0 = 0, var(Wi) = var(Xile = 0) = 02. 
这 类 模型 在 许多 工程 应 用 中 非常 普遍 , 工程 中 一 个 未 知 量 往往 有 若干 个 独立 的 测量 
值 . 根据 假设 , 我 们 有 
eg) 一 cl op{ _ (0 一 2 


了 
200 


以 及 
_ 9)2 _ 2 
fxle(7z|0) = c2 oo -| : -ee 人 -号 


这 里 cu c 是 归 一 化 常数 , 不 依赖 于 9. 运用 贝 叶 斯 法 则 


_ fe(9)fxle(zx|0) 
folx (0l) = Fo) Friel a 


注意 , 分 子 项 fe(9)fxje(z|9) 的 形式 是 
nn ;一 0 2 
C1C2 ep{- 》， | 


i=0 2 


通过 代数 运算 , 对 指数 的 肩膀 上 的 求 和 部 分 进行 配 平方 , 可 以 算出 分 子 项 的 形式 是 
_ 2 


D0 zi/o? J 二 1 
Do01/08 Diol/o2 


其 中 


mm 二 
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d 是 常数 , 只 依赖 于 zi, 不 依赖 于 9. 贝 叶 斯 法 则 公式 中 的 分 母 项 也 不 依赖 于 9, 所 
以 我 们 可 以 得 出 结论 , 后 验 密度 函数 的 形式 是 


一 人 2 
JoxGm =a- ep{ -C3 
a = 1/V555 是 归 一 化 常数 , 只 依 囊 于 mi, 不 依赖 于 6. 这 就 是 正 态 密度 函数 的 形式 ， 
所 以 后 验 密度 函数 是 正 态 的 , 均 信 是 m 方差 是 
特殊 情况 下 , 假设 vg, cg,… ,02 都 相等 , 等 于 cz, 则 6 的 后 验 密度 函数 是 正 
态 的 , 均值 和 方差 分 别 是 


_ Zot 二 Tn 02 


n+l1 ， “二 


在 这 种 情况 下 , 先 验 均值 xo 扮演 着 一 个 观测 值 的 作用 , 而 且 对 6 的 后 验 均值 发 挥 
相同 的 作用 . 同时 注意 到 8 后 验 密度 的 标准 差 在 观测 样本 量 增 大 时 , 趋 于 0, 速度 


大 臻 是 1/Vn. 
如 果 方 差 o? 不 相同 时 , 后 验 均值 m 仍 是 每 个 z; 的 加 权 平 均 , 方差 越 小 , 对 m 
的 权重 就 越 大 . 口 


上 例 有 一 个 显著 的 性 质 , 那 就 是 6 的 后 验 分 布 与 先 验 分 布 是 同一 个 分 布 族 , 比 
如 说 正太 分布 族 . 这 个 性 质 非常 吸引 人 , 原因 有 两 个 . 
(a) 后 验 分 布 的 特征 只 有 两 个 数 : 均值 和 方差 
(b) 后 验 分 布 的 解 形式 可 以 使 用 有 效 的 递归 推断 . 假设 已 经 获得 观测 值 X1,… ， 
Xn, 且 下 一 个 观测 值 X11 也 得 到 了 . 那么 我 们 不 必 从 头 开始 计算 后 验 分 布 ,而 是 我 
们 可 以 将 fejx,,… ,x 作为 先 验 , 然后 运用 新 观测 值 运算 得 到 新 后 验 fox xx， 
我 们 可 以 使 用 例 8.3 的 答案 来 求 这 个 后 验 . 显然 (当然 可 以 正式 推导 ), 6 的 新 后 验 
分 布 也 是 正 态 的 , 均值 是 
(m/v) + (wnt1/o211) 
(1/0) + (1/o2) 
方差 是 
1 
GT 


其 中 m 和 分 别 是 后 验 folx, x 的 均值 和 方差 

但 是 后 验 分 布 与 先 验 分 布 属于 同一 分 布 族 的 情形 不 是 非常 普遍 . 除了 正 态 分 布 
族 外 , 另外 有 名 的 例子 是 投掷 硬币 的 伯 努 利 实 验 和 二 项 分 布 . 
例 8.4 (不 均匀 硬币 的 贝塔 先 验 ) ”和 欲 估计 一 个 非 均 匀 硬 币 投掷 时 正面 朝 上 的 概率 ， 
记 为 0. 将 9 看 成 随机 变量 6 的 一 个 值 , 6 的 先 验 密度 为 fo. 现在 考虑 n 次 独立 
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的 投 迫 实 验 , 记 X 为 观测 到 的 正面 朝 上 的 总 次 数 . 运用 贝 叶 斯 法 则 , 6 的 后 验 密度 
函数 是 : 对 任意 的 9 € [0,1]， 


folx (0|k) = cfe(O)pxle (kl0) = dfe(O)0*(1 一 多 " 


其 中 是 归 一 化 常数 (不 依赖 于 0), 且 d= c 人 (人 
现在 假设 先 验 是 贝塔 分 布 , 参数 是 正 整数 a > 0 和 6 > 0, 即 


B(a, D) 
0 其 他 ， 
其 中 B(a, 6) 是 归 一 化 常数 , 就 是 有 名 的 贝塔 函数 , 即 


gl(l 一 9)5-!， 若 0<0<1, 
fe(0) = 


fp CE 
Bo 及 = 0 -99140= 


最 后 一 个 等 式 可 以 通过 分 部 积分 的 方法 , 或 者 使 用 概率 方法 (第 3 章 习题 30) 计算 
得 到 . 则 8 的 后 验 密度 函数 的 形式 是 


da Qk— n— 一 
folx (Ok) = Bea th-l(1 0" +81 OgO0g1, 


所 以 也 是 贝塔 密度 函数 , 参数 是 

ao =k+i+a, P=n—k+i+p. 
特殊 情形 是 a = 6 = 1, 即 先 验 fe 是 [0, 1] 的 均匀 分 布 密度 . 在 这 种 情形 下 , 后 验 
密度 也 是 贝塔 密度 , 参数 是 k 十 1 和 nn 一 k 十 1. 


贝塔 密度 常常 在 统计 推断 的 实际 应 用 中 , 而 且 具 有 很 有 趣 的 性 质 . 特别 地 , 如 
果 6 是 服从 参数 为 a 和 6 的 贝塔 分 布 时 , 它 的 mm 阶 矩 是 


1 
E[em] -Be 万 上 oO™to-1(1 一 的 6-1db 
_Bnz 十 oOD) 
B(o, O) 


加 a(a+1)..(a+mo— 1) 
(a+Ba+B+1):..(at+fP+m—1) 
前 面 几 个 例子 都 是 讨论 98 是 连续 的 情形 , 而 且 是 典型 的 参数 估计 问题 . 下 面 这 
个 例子 是 离散 情形 , 是 典型 的 两 重 假设 检验 问题 . 


口 
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例 8.5 (垃圾 邮件 过 虑 ) ”一 封 电子 邮件 不 是 垃圾 邮件 就 是 正常 邮件 . 我 们 引入 参 
数 6, 取 值 为 1 和 2, 分 别 代 表 垃 圾 和 正常 , 各 自 取 值 的 概率 分 别 为 pe (1), pe (2). 
设 {wi,… ,wn} 代表 一 些 特殊 的 词 (或 者 词 的 组 合 ) 形成 的 集合 , 它们 出 现 后 就 表 
示 邮 件 是 垃圾 的 . 对 每 个 i, 记 X; 是 伯 努 利 随机 变量 , 来 定义 w; 是 否 出 现在 信息 
中 , 即 当 wi 出 现时 , X; = 1, 否则 X; = 0. 假设 条 件 概率 pxile(zi|l) 和 px, je (zi|2), 
zi 二 0,1 是 已 知 的 . 简单 起 见 , 假设 在 给 定 6 的 条 件 下 , 随机 变量 Xi,.…. , 序 ,, 是 相 
互 独 立 的 . 
现在 我 们 运用 贝 叶 斯 法 则 来 计算 垃圾 邮件 和 正常 邮件 的 后 验 概率 . 即 


pe(m) Ti pxile (zilm) 
D5;1 pe07) TI pxsle (zal))’ 


这 两 个 后 验 概率 可 以 用 于 将 邮件 分 类 为 垃圾 还 是 正常 ,其 计算 方法 将 在 后 面 继续 讨 
论 . 口 
多 参数 问题 

目前 为 止 我 们 只 讨论 单个 未 知 参数 的 情形 .多 个 未 知 参 数 的 情形 也 是 完全 类 
似 的 . 下 一 个 例子 讨论 的 是 两 个 参数 的 问题 
例 8.6 (传感器 网 络 的 定位 ) ”假设 有 n 个 声 敏 元 件 , 分 布 在 我 们 关注 的 一 个 地 理 
区 域内 . 设 第 i 个 声 敏 元 件 的 坐标 是 (ai, 5). 一 辆 发 送 已 知 声音 信号 的 车 辆 在 这 个 
区 域内 , 坐标 为 9 = (61, 8,), 但 是 未 知 . 每 个 声 敏 元 件 探 测 这 个 车 辆 ( 即 捕捉 到 这 
个 车 辆 的 信号 ) 的 概率 依赖 于 它们 之 间 的 距离 . 观测 数据 是 哪些 声 敏 元 件 探测 到 车 
辆 , 哪些 没有 探测 到 , 目标 就 是 尽 可 能 地 找到 车 辆 所 在 的 位 置 , 见 图 8.2. 
目标 的 位 置 (未 知 ) 


OO 
/ o 
| /7 匀 NN 
声 敏 元 作 一 人 OO 


图 8.2 ”运用 声 感 传 感 器 网 络 定位 示意 图 


先 验 密度 fe 的 意思 是 我 们 基于 历史 观测 数据 对 这 个 车 辆 的 位 置 的 大 致 认识 . 
简单 起 见 , 假设 8 和 6s 是 相互 独立 的 正 态 随 机 变量 , 均值 为 0、 方 差 为 1. 所 以 


P(© = mlX1 = 71,.… ,Xn = Tn) = m= 1,2. 


1 
fe(01,02) = 元 e 1412， 


358 第 8 章 贝 叶 斯 统计 推断 


当 第 i 个 声 敏 元 件 探测 到 车 辆 时 , 令 X; = 1, 否则 Xi = 0. 由 于 信号 强度 随 目 
标 与 声 敏 元 件 之 间 的 距离 的 增加 而 衰变 , 我 们 假定 捕 提 概率 与 声 敏 元 件 与 车 辆 之 间 
的 距离 d;(91, 92) 是 呈 指 数 递 降 的 . 具体 说 , 我 们 使 用 模型 


P(X; = 1|© = (01,02)) = pxse(1|01, 02) = e— (002), 


其 中 丰 (01,92) = (ai 一 69)2 十 (bi 一 92)?. 进一步 假设 在 给 定 车 辆 位 置 6@ 的 条 件 下 ， 
Xi 是 彼此 独立 的 . 
定义 8 为 X; = 1 的 传感器 集合 . 现在 计算 后 验 密度 函数 . 计算 jelx(blz) 的 
贝 叶 斯 公式 中 的 分 子 是 
1 


fe lb)pxie(zl0) = 元 ee [le “1[( — ee:), 
ies gS 

其 中 zz 是 nn 维 向 量 (x1,... ,zn), 其 第 i 个 元 素 zi 当 ie 5 时, mi =1 否则 x;=0. 
jelx(glz) 的 表达 式 中 的 分 母 就 是 对 分 子 表达 式 的 一 个 二 重 积 分 , 其 积分 变量 分 别 
为 91 和 02. 口 

例 8.6 表明 , 不 管 9 是 一 个 或 者 多 个 变量 向 量 , 计算 后 验 密 度 folx(9|x) 的 原 
则 是 一 样 的 . 但 是 , 即使 原则 上 后 验 密度 函数 是 通过 使 用 贝 叶 斯 法 则 运算 得 到 , 但 
是 一 般 而 言 , 不 能 指望 后 验 密 度 有 明确 的 表达 式 . 实际 上 , 可 能 需要 进行 数字 计算 . 
通常 , 运用 贝 叶 斯 公式 计算 分 母 的 归 一 化 常数 很 具有 挑战 性 . 在 例 8.6 中 , 分 母 是 
对 91 和 8b 的 双重 积分 , 数字 计算 具有 可 行 性 . 但 是 如 果 6 是 高 维 的 话 , 那么 数字 
积分 就 非常 难 了 . 现在 已 经 有 成 熟 的 近似 计算 方法 , 即 可 以 运用 随机 抽样 的 方法 求 
近似 积分 , 这 些 内 容 已 不 在 本 书 的 讨论 范围 之 内 了 . 

当 6 = (61,.… ,Bm) 是 多 维 的 时 候 , 我 们 有 时 只 对 8 其 中 一 个 元 素 , 比如 说 
91, 感 兴趣 . 这 样 就 集中 在 计算 fe,jx(91|z), 即 91 的 边缘 后 验 分 布 , 计算 公式 是 


feilx (01|7) = /ex ,Om|z)d02 db 


然而 , 当 9 是 高 维 的 时 候 , 计算 这 个 多 重 积分 是 非常 困难 的 . 


8.2 ”点 估计 , 假设 检验 , 最 大 后 验 概率 准则 
本 节 介 绍 一 种 简单 但 是 普遍 的 贝 叶 斯 推断 方法 , 并 将 之 应 用 在 点 估计 和 假设 检 
验 问题 中 . 给 定 观测 值 z, 选择 9 的 一 个 取 值 , 记 为 6, 使 得 后 验 分 布 列 pelx(blz) 
达到 最 大 (者 6 连续 则 为 后 验 分 布 密度 fejx (0|z)): 


6 一 arg max pelx (0|7), (© 离散 )， 
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0 一 arg mgx felx (Olz), (9 连续 ). 
这 就 是 最 大 后 验 概率 准则 ( 见 图 8.3). 


后 验 密 度 后 验 分 布 列 
felx(0|2) Pelx(0|®) 


图 8.3 最 大 后 验 准 则 用 于 推断 的 说 明 , 左边 是 连续 型 变量 , 右边 是 离散 型 变量 


当 @ 是 离散 型 变量 , 最 大 后 验 概率 准则 有 一 条 重要 的 最 优 性 质 ， 由 于 6 是 昌 
最 有 可 能 的 取 值 , 它 使 对 任意 给 定 的 > 有 最 大 的 概率 做 出 正确 的 决定 . 这 也 说 明 最 
大 后 验 概率 准则 使 总 体 (平均 了 所 有 z 可 能 的 取 值 ) 做 出 正确 决定 的 概率 达到 最 大 
(在 所 有 决策 准则 中 ). 等 价 地 , 最 大 后 验 概率 准则 使 得 做 出 错误 决定 的 概率 达到 最 
小 (对 于 每 个 z 的 观测 值 , 也 针对 总 体 错误 的 概率 ).? 

在 贝 叶 斯 准则 下 的 后 验 分 布 有 一 条 计算 上 的 捷径 : 对 所 有 的 9 分 母 都 一 样 ， 
只 由 z 的 观测 值 决 定 . 因此 , 为 了 让 后 验 概率 达到 最 大 , 在 6 和 X 都 离散 的 情况 
下 , 只 须 寻 找 9 使 得 pe(9)pxle(z|9) 的 数值 达到 最 大 , 在 9 或 X 连续 的 时 候 也 有 
类 似 的 表达 . 这 里 没有 必要 去 计算 分 母 ， 


| 最 大 后 验 概率 准则 
。 给 定 z 的 观测 值 , 最 大 后 验 准则 是 指 在 所 有 的 9 中 寻找 6 使 得 后 验 分 布 
peix(glz)( 考 © 离散 ) 或 feix(6|zx)( 若 @ 连续 ) 达到 最 大 值 . 
。 等 价 地 , 最 大 后 验 准则 是 在 所 有 9 中 找 6 使 得 下 面 函 数 达到 最 大 : 
pe(9)pxle(X|6) (8 和 六 均 离 散 )， | 
| 


由 为 了 更 准确 地 表述 这 一 问题 , 我们 考虑 一 个 基于 zx 的 观测 值 的 一 般 决 策 准 则 ， 即 选择 一 个 9 的 取 
值 . 将 这 个 一 般 的 决策 准则 记 为 g(z)， 同 时 , 记 最 大 后 验 准 则 为 gMAP(). 用 了 和 IMAap 分 别 
表示 相应 的 伯 努 利 随机 变量 ， 当 一 般 决策 准则 (相应 的 ， 最 大 后 验 准则 ) 正确 的 时 候 , 7 的 取 值 为 
1( 相 应 地 ，IMyap 的 取 值 为 1). 因此 事件 了 = 1 和 9(X) = 昌 是 一 样 的 , 对 于 gMAP 也 是 如 此 . 
根据 最 大 后 验 概率 准则 的 定义 , 对 于 每 个 可 能 实现 的 X， 

EUIX] = P(g(X) = ©|X) < P(gmap(X) = ©|X) = ElImap|X]. 
根据 条 件 期 望 的 性 质 , 得 到 E[1] < E[IMAP], 即 
P(g(X)= ©) < P(gmAP(X) = 8). 
因此 , 在 所 有 的 决策 准则 中 , 最 大 后 验 准则 使 得 做 正确 决定 的 总 概率 达到 最 大 . 注意 这 里 讨论 的 9 
是 离散 的 . 当 X = z 时 , 若 9 连续 , 则 在 任何 准则 下 做 出 正确 决定 的 概率 都 是 0. 


一 
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2 


| 


pe(g)jxie(zl0) (9 离散 , X 连续 )， 
je(b)pxle(zl9) (@ 连续 , XX 离散 )， 
fe(0)fxle(z|0) (8 入 均 连 续 ). 


。 如 果 日 只 取 有 限 个 数值 , 则 最 大 后 验 概率 准则 (在 所 有 决策 准则 中 ) 使 得 
选择 错误 假设 的 概率 达到 最 小 . 无 论 是 在 给 定 观测 值 z 的 情况 下 , 犯错 误 
的 条 件 概率 , 或 者 是 犯错 误 的 无 条 件 概率 , 这 个 准则 都 是 正确 的 . | 


下 面 我 们 通过 回顾 前 面 的 儿 个 例子 来 解释 最 大 后 验 概率 分 布 准则 . 
例 8.3( 续 )” 设 9 是 正 态 随机 变量 , 均值 为 zo、 方 差 3. 给 定 6 的 取 值 为 9, 观 
察 到 一 些 随 机 变量 X = ey … , 勾 ), 它 的 分 量 是 相互 独立 的 正 态 随机 变量 , 均值 
0、 方差 分 别 为 oc?,… ,02. 己 经 发 现 后 验 概率 分 布 密度 是 均值 为 m, 方差 为 v 的 正 
态 分 布 , 其 中 m 和 v 的 表达 式 为 

-ElelX = = SS 人 ，u=var(eIXK=a]= 7 

由 于 正 态 分 布 密度 函数 在 均值 处 取 最 大 值 , 最 大 后 验 概率 估计 为 6 = m. 
例 8.5( 续 ) ”在 这 个 例子 中 , 参数 6 取 值 为 1 和 2, 分 别 代表 垃圾 邮件 和 正常 邮件 ， 
各 自 取 值 的 概率 分 别 为 pe(1),pe(2)， Xi 是 伯 努 利 随 机 变量 , 用 于 定义 词汇 ws 是 
否 出 现在 信息 中 , 即 当 wi 出 现时 , X; = 1, 否则 X; = 0. 我 们 已 经 计算 得 到 垃圾 邮 
件 和 正常 邮件 的 后 验 概率 , 即 


pe(m) [Li pxsle (zilm) 
Dj_1pe(7) Ti pxle(Til)) : 


现在 我 们 想 根据 响应 向 量 (z1,… ,zn) 来 判断 一 封 邮件 是 垃圾 还 是 正常 的 邮件 . 最 
大 后 验 概率 准则 是 这 样 判断 的 , 如 果 下 面 式 子 成 立 , 则 判断 该 邮件 为 垃圾 邮件 : 


P(© = 1X1= 21,.… ,Xn = Xn) > PP(O =2|X1 一 ZXn = Tn), 
或 等 价 地 


P(O = mlXi = x1,.… ,Xn = Tn) = 


m= 1,2. 


pe(W TI px le(zil1) > pe(2 )T[zx le(zi|2). 
i=1] 


8.2.1 点 估计 


在 一 个 估计 问题 中 , 给 定 X 的 观测 值 z, 后 验 分 布 抓 住 了 zx 提供 的 所 有 相关 
信息 . 而 另 一 方面 , 我 们 对 概括 了 后 验 性 质 的 某 些 量 很 感 兴趣 . 比如 , 点 估计 是 一 个 
数值 , 它 表 达 了 我 们 关于 @ 取 值 的 最 好 猜测 . 
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先 来 介绍 一 下 有 关 估 计 的 概念 和 术语 . 为 简单 起 见 , 假设 6 是 一 维 的 , 但 是 这 
里 讨论 的 方法 同样 适用 于 多 维 . 估计 指 的 是 在 得 到 实际 观察 值 > 的 基础 上 我 们 选 
择 的 6 的 数值 . 6 的 数值 是 由 观测 值 > 的 某 些 函 数 g 决定 的 , 即 6 = g(z). 随机 变 
量 6 = g(X) 也 称 为 估计 , 之 所 以 说 台 是 随机 变量 是 因为 估计 的 结果 由 随机 的 观 
测 值 所 决定 . 

利用 不 同 的 函数 g 可 以 构造 不 同 的 估计 量 , 其 中 总 有 一 些 会 是 比较 好 的 估计 . 
举 一 个 极端 的 例子 , 考虑 函数 g(z) = 0. 估计 量 日 =0 根本 没有 利用 到 数据 , 因此 
并 不 是 一 个 好 的 估计 . 目前 有 两 个 最 流行 的 估计 量 . 

(a) 最 大 后 验 概率 估计 量 . 观测 到 >, 在 所 有 的 9 中 选 6 使 得 后 验 分 布 达 到 最 
大 , 当 有 很 多 这 样 的 取 值 时 ,6 可 在 备 选 量 中 任意 选 定 . 

(b) 条 件 期 望 估 计量 , 曾 在 4.3 节 中 介绍 . 这 里 选 定 的 佑 计量 为 6= E[6|X = z]. 

条 件 期 望 估 计量 将 在 8.3 节 仔 细 讨 论 . 届时 将 称 它 为 “最 小 均 方 估计 ”, 因为 它 
有 个 很 重要 的 性 质 : 在 所 有 估计 量 中 使 均 方 误差 达到 最 小 (后面 会 讨论 ). 这 里 有 
两 条 关于 最 大 后 验 概率 统计 量 的 注释 . 

(a) 如 果 © 的 后 验 分 布 关于 (条 件 ) 均值 对 称 并 且 是 单 峰 的 [此 时 ,6 的 后 验 分 
布 列 (或 后 验 密度 函数 ) 只 有 一 个 最 大 值 ], 并 且 最 大 值 在 均值 处 取 到 . 这 时 , 最 大 后 
验 概 率 估计 量 和 条 件 期 望 估计 量 恰好 一 样 . 比如 例 8.3 中 , 后 验 分 布 保持 为 正 态 的 
情况 . 


(b) 当 8 是 连续 型 变量 , 有 些 时 候 最 大 后 验 概率 统计 量 6 的 具体 值 可 以 通过 
分 析 的 方法 得 到 . 比如 在 对 9 没有 限制 的 情况 下 , 将 jelx(blz)( 或 log jeix(glz)) 的 
导数 取 为 0, 得 到 一 个 方程 , 由 方程 解 出 9 即 可 . 但 是 在 其 他 情况 下 , 可 能 会 需要 通 
过 数值 计算 的 搜寻 . 


点 估计 

。 估 计量 是 一 个 形式 为 9 = g(X) 的 随机 变量 , 其 中 g 为 某 些 函数 . 不 同 的 
9 形成 不 同 的 估计 量 . 

。 当 观 测 的 随机 变量 的 值 > 得 到 以 后 , 就 得 到 估计 量 日 = g(X) 的 取 什 
9, 我 们 称 之 为 估计 值 . 

。 一 旦 观测 到 X 的 取 值 x, 则 最 大 后 验 概率 估计 量 就 赋予 估计 6 一 个 值 ， 
它 是 在 所 有 0 中 使 得 后 验 分 布 达 到 最 大 时 所 对 应 的 参数 值 . 

。 一 旦 观测 到 XX 的 取 值 x, 条 件 期 望 估计 量 赋予 估计 6 的 值 是 E[8|X = zl]. 


例 8.7 考虑 例 8.2 中 朱丽叶 第 一 次 约会 迟到 的 随机 变量 X. X 服从 区 间 [0, 6] 上 
的 均匀 分 布 , 且 参 数 6 是 未 知 随机 变量 , 其 先 验 分 布 fo 为 [0, 1] 上 的 均匀 分 布 ( 随 


362 第 8 章 贝 叶 斯 统计 推断 
机 变量 9 的 单位 是 小 时 ). 在 那个 例子 中 , 对 任意 的 z e [0, 1], 后 验 密度 函数 是 


1 ,车 z<0<1 
felx (0|7) = 0.|logz| 
0, 其 他 . 


对 于 给 定 的 x, fejx(6|z) 在 6 的 取 值 范围 fz,1] 中 随 6 增 大 而 减 小 . 因而 最 大 后 验 
概率 估计 就 是 z, 注意 这 是 一 个 很 “乐观 ”的 估计 . 如 果 朱 丽 时 在 第 一 次 约会 时 只 
迟到 了 一 小 会 儿 (z = 0), 则 未 来 约会 迟到 时 间 的 估计 是 很 小 的 . 

而 条 件 期 望 估计 就 没有 这 么 乐观 了 . 事实 上 , 有 


1 1 1 一 7Z 


图 8.4 描绘 了 两 个 估计 量 随 着 x 变化 的 函数 ， 可 以 看 出 对 任意 的 迟到 时 间 >， 
EfeIX=z] 比 6 的 最 大 后 验 概率 估计 要 大 . 


0 0.2 0.4 0.6 0.8 1 
人 


图 8.4 例 8.7 中 , 最 大 后 验 概率 估计 和 条 件 期 望 估计 的 比较 


例 8.8 考虑 例 8.4 中 的 模型 , X 为 观测 到 的 正面 朝 上 的 总 次 数 . 假设 6 的 先 验 分 
布 (正面 朝 上 的 概率 ) 是 [0,1] 上 的 均匀 分 布 . 下 面 来 计算 6 的 最 大 后 验 概率 估计 
和 条 件 期 望 估计 . 

如 例 8.4 中 所 示 , 当 X = 有 9 的 后 验 分 布 服从 参数 为 a = KE+1 和 有 =m 一 ET1 
的 贝塔 分 布 : 


1 2 
foix (lk) = Brin Rr) (1 9" “车 9 € [0,1] 
» 其 他 . 
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后 验 密度 函数 是 单 峰 的 . 为 了 确定 峰值 的 位 置 , 将 表达 式 0*(1 - 0)" 看 作 随 9 变 
化 而 变化 的 函数 . 令 密度 函数 的 导数 取 值 为 0, 得 到 方程 


kOr-1(1 — 0)"*— (n— ko*(1— 0)"*-1=0, 


由 此 推出 
。 
6 ==. 
她 
这 就 是 最 大 后 验 概率 估计 . 
为 得 到 条 件 概率 估计 , 用 贝塔 分 布 的 期 望 公式 ( 见 例 8.4): 
k++1 
ElOlX =H = 3: 


注意 , 当 ” 的 取 值 很 大 时 , 最 大 后 验 概率 估计 和 条 件 期 望 估计 是 基本 一 致 的 ，“ 口 

如 果 没 有 附加 的 假设 条 件 , 点 估计 的 准确 性 是 没有 多 大 保障 的 . 举例 来 说 , 最 
大 后 验 概率 估计 可 能 和 后 验 分 布 的 主体 部 分 相距 其 远 . 因此 , 总 希望 得 到 一 些 关于 
估计 的 一 些 附 加 信息 , 例如 条 件 均 方 误差 EBI(6 - 8)?|X = zj. 在 8.3 节 中 , 我 们 将 
要 进一步 讨论 这 个 问题 . 特别 地 , 要 通过 对 前 面 两 个 例子 的 回顾 来 分 别 计算 最 大 后 
验 概率 估计 和 条 件 期 望 估计 的 条 件 均 方 误差 . 


8.2.2 ”假设 检验 


在 一 个 假设 检验 问题 中 , 6 取 91,… ,bm 中 的 一 个 值 , 其 中 mm 是 一 个 取 值 较 
小 的 整数 . 经 常 处 理 的 问题 是 m = 2, 就 是 两 重 假设 检验 问题 . 称 事件 {e = 0;} 为 
第 i 个 假设 , 记 为 fH;. 

一 旦 观测 到 的 取 值 z, 就 可 以 用 贝 叶 斯 准则 来 计算 后 验 概率 P(6 = 9;|X = 
2z) = pelx (9:|z). 接着 根据 最 大 后 验 概率 准则 选 出 后 验 概率 最 大 的 假设 . (如 果 几 个 
假设 都 拥有 相同 的 最 大 后 验 概率 , 可 以 随机 选择 .) 正如 之 前 提 到 的 , 最 大 后 验 概率 
准则 在 所 有 准则 中 使 得 做 正确 决定 的 概率 达到 最 大 , 从 这 个 意义 上 来 说 它 是 最 理想 
的 . 


假设 检验 的 最 大 后 验 概率 准则 
。 给 定 观 测 值 z, 最 大 后 验 概率 准则 选择 使 后 验 概 率 P(e@ = 0;|X = zx) 最 大 
的 假设 Hi;. 
。 等 价 地 ,也 就 是 使 pe(gi)pxle(zl6)(X 离散 ) 或 pe(0;)fxle(z|9)(X 连续 ) 
达到 最 大 的 假设 Hi;. 
。 与 其 他 决策 准则 相 比 , 最 大 后 验 概率 准则 对 任意 观测 值 x 使 得 选择 错误 
假设 的 概率 , 也 即 犯 错 的 概率 达到 最 小 . 
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有 了 最 大 后 验 概率 准则 , 就 可 以 计算 相应 的 做 出 正确 决策 (或 错误 决策 ) 的 概 
率 , 它 是 关于 x 的 函数 . 特别 地 , 如 果 9wap(z) 是 最 大 后 验 概率 准则 在 X = z 的 情 
况 下 选 出 来 的 假设 , 那么 做 出 正确 决策 的 概率 是 


P(e 一 gMAP(T)|IX 一 2). 


进一步 地 , 5; 是 按 最 大 后 验 概率 准则 选择 假设 H; 时 所 对 应 的 x 的 集合 , 则 做 出 正 
确 决策 的 总 概率 为 


P(© = gMAP(X)) = 2_r(© = 0;, X € 5;), 


相应 犯错 误 的 概率 是 
SP(© #0:,X € Si). 


下 面 是 一 个 典型 的 用 最 大 后 验 概率 准则 计算 两 重 假设 的 例子 . 
例 8.9 有 两 枚 不 均匀 的 硬币 , 记 为 硬币 1 和 硬币 2, 正面 朝 上 的 概率 分 别 为 p 和 
pa. 随机 选择 一 枚 硬币 (每 枚 有 相同 的 入 选 概率 ), 希望 在 一 次 抛 硬 币 结果 的 基础 上 
判断 这 枚 硬币 是 硬币 1 还 是 硬币 2. 令 8 = 1 和 8 = 2 分 别 代表 假设 “选择 硬币 
1” 和 “选择 硬币 2”. 记 X = 1 表示 硬币 正面 朝 上 , X = 0 表示 反面 朝 上 . 

利用 最 大 后 验 概率 准则 , 比较 pe(l)pxle(zl1) 和 pe(2)pxie(zl2) 的 大 小 , 并 且 
认为 所 投 硬币 就 是 表达 式 取 值 相应 较 大 的 那个 . 由 于 pe(1) = pe(2) = 1/2, 只 须 比 
较 pxle(zl1) 和 pxje(z|2). 比如 若 pl = 0.46, pa = 0.52, 投掷 结果 是 反面 , 注意 到 


P( 反 面 |8 =1)=1-0.46>1--0.52=P( 反 面 |8 = 2)， 


因而 认为 所 抛 撕 的 是 硬币 1. 

假设 现在 将 所 选 的 硬币 投 搓 了 n 次 , X 是 正面 朝 上 的 次 数 . 以 前 的 做 法 仍 
然 正确 , 根据 最 大 后 验 概率 准则 选择 观测 结果 最 有 可 能 发 生 的 假设 (建立 在 假设 
pe(1) = pe(2) = 1/2 的 基础 上 ). 因而 当 久 = 时 ,车 


pe(1 — p1)” * > pe(1 — p2)™—®, 


则 认为 6 = 1, 否则 , 认为 8 = 2. 图 8.5 解释 了 最 大 后 验 概率 准则 . 口 

如 图 8.5 中 所 示 , 最 大 后 验 概率 准则 的 特征 是 典型 的 两 重 假设 检验 问题 的 决策 
准则 ;， 它 的 实现 是 将 观测 空间 划分 为 两 块 没有 交集 的 子 区 域 , 在 每 个 子 区 域 中 接 
受 一 种 假设 .在 这 个 例子 中 ,最 大 后 验 概 率 准则 通过 k* 的 划分 而 得 以 实现 : 当 
k < k* 时 接受 6 = 1, 否则 接受 6 = 2. 犯错 误 的 总 概率 由 全 概率 公式 计算 可 得 : 
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P( 错 误 ) =P(8 =1,X>k*)+P(8=2,X<k*) 


n 天 
=pe() >, c(k)pt(1 —p1)" *+pe(2) Yc(k)ps(l 一 pa)m 
k=k* 二 1 k=1 


nn 


=3( da-mr ‘+ el) )8(1 -pa)"*)， 


其 中 c(k) 是 正规 范 化 常数 . 图 8.6 给 出 了 一 类 门限 决策 准则 的 犯错 误 的 概率 , 所 
谓 门限 决策 准则 是 由 一 个 k* 决定 的 决策 准则 , 当 大 和 k* 时 接受 6 = 1, 否则 接受 
9 = 2. 因此 门限 决策 准则 的 犯错 误 的 概率 是 关于 k* 的 函数 . 最 大 后 验 概率 准则 是 
一 个 特殊 的 门限 决策 准则 , 此 例 中 k* = 24, 这 个 准则 使 得 做 正确 决定 的 概率 达到 
最 大 , 从 而 犯错 的 概率 达到 最 小 . 


图 8.5 最 大 后 验 概率 准则 在 例 8.9 中 的 应 用 , 其 中 , n = 50, pi = 0.46, pa = 0.52, 计算 后 验 
概率 
P(O©=ilX =%k)=c(k)peli P(X = k=) 


一 c(k)pe (2 人 (1 一 Pi) *, $= 1, 2, 
中 c(k) 是 正规 范 化 常数 , 选择 有 最 大 后 验 概率 的 假设 9 = i， 由 于 例 中 pe(1) = 
pe(2) = 1/2, 按 最 大 后 验 概率 准则 , 只 须 选择 使 p(1 一 p;)"-* 达到 最 大 的 假设 © = i 
在 例 8.9 中 , k* = 24, 当 k < k* 时 接受 8 = 1, 否则 接受 9© = 2 


下 面 介 绍 的 是 通信 工程 中 的 一 个 经 典 例子 . 
例 8.10 (信号 检测 和 匹配 的 滤波 器 ) ” 某 发 射 机 传送 两 条 可 能 的 信息 中 的 一 条 . 如 
果 传 送 的 是 信息 1 则 6 = 1, 否则 8 = 2. 假设 两 条 信息 传送 的 概率 是 几乎 相等 的 ， 
即 pe(1) = pe(2) = 1/2. 

为 了 提高 抗 噪声 的 能 力 , 发 射 机 使 用 一 种 信号 使 得 传送 信息 的 时 间 延 长 . 特别 
地 , 发 射 机 发 出 信号 5 = (51,… ,Sn), 其 中 5; 为 实数 . 若 6 = 1( 相 应 的 , 9 = 2)， 
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则 5 是 确定 的 序列 (a1,… ,an)( 相 应 地 , (b1,.… , bn)). 假设 两 个 备 选 信息 有 相同 的 
“能 量 ”, 即 oz 十.… 十 a2 = 好 十 … 十 到 . 接收 机 能 够 观测 到 传送 的 信号 , 但 是 伴随 
着 附加 噪声 的 干扰 . 更 具体 地 , 它 的 观测 值 为 


Xi=Si+ Wi 7=1,...,n, 
其 中 假设 Wi 服从 标准 正 态 分 布 , 互相 独立 , 且 与 信号 独立 . 


pd 
犯错 误 的 概率 


准则 的 阔 值 


图 8.6 “犯错 的 概率 随 门限 决策 准则 中 的 阔 值 k*(k < k* 时 接受 © = 1, 否则 接受 © = 2) 变 
化 的 图 示 . 和 图 8.5 一 样 , 相关 的 参数 为 n = 50, pl = 0.46, pa = 0.52. 最 大 后 验 概 
率 准则 的 疮 值 为 k* = 24, 此 时 犯错 的 概率 最 小 


在 © =1 的 假设 下 , X; 是 独立 正 态 随 机 变量 , 均值 ui 方差 为 1. 因此 
1 
(V2n)" 


fxie(z|1) = (ea 一 onj2+… 上 (za 一 an)2)12. 


类 似 地 ， | 


(Van)" 
根据 贝 叶 斯 准则 , 第 一 条 信息 被 传送 的 概率 是 
exp{—((z1 — 01)? + .+ (zn ~ 0n)’)/2} 
exp{—((z1 — a1)2 T+ (on — an)2)/2} + exp{—((z1 — bi)? ++ (on — bn)2)/2} 


展开 指数 式 的 二 次 项 , 并 利用 假设 @ 十 … 十 2 = 好 十 … 十 忆 , 表达 式 化 简 为 


fxle(z|2) = (C21—b1)? + +t (en bn)?)/2. 


Pre 11X etalz1 十 … 十 amZm) 
2 pelx (llz) 一 e(aIZ1 十 … 十 anzZnm) 十 e(pizZ1 十 … 十 bnZn) “ 


计算 P(8 = 2|X = z) 的 公式 也 是 类 似 的 , 把 分 子 中 的 ai 换 作 b; 即 可 . 
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根据 最 大 后 验 概 率 准 则 , 要 选择 使 后 验 概率 最 大 的 假设 , 即 


选 G = 1, 如 果 Vass > Di 
“一 1 


i=1 


选 9 = 2, 如 果 >》 aizi < 》 bi 
i=1 i=l 
(如 果 内 积 相等 , 则 随机 选择 哪个 假设 .) 这 种 特殊 的 用 来 判断 传送 信号 的 结构 被 称 
为 匹配 的 滤波 器 ; 根据 得 到 的 信号 (zi,…. ,Tn) 计算 内 积 ?1 aiz; 和 D1 biri, 
选 出 取 值 高 的 作为 假设 (也 就 是 最 佳 “匹配 ”). 

这 个 例子 可 以 推广 到 m > 2 的 情形 , 其 中 每 条 信息 传送 的 概率 是 相等 的 ， 假 
设 对 于 信息 &, 发 射 机 发 出 确定 的 信号 (a$,… , as), 对 于 每 个 k, (a$)? 十 .… 十 (ak)? 
都 相等 . 这 样 在 相同 的 噪声 模型 下 , 通过 类 似 的 计算 , 最 大 后 验 概率 准则 解码 得 到 
的 信号 (z1,… ,zn) 将 会 是 ”iagzi 取 值 最 大 的 信号 大 口 
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本 节 将 详细 讨论 条 件 期 望 估计 量 . 特别 地 , 它 具 有 使 可 能 的 均 方 误差 达到 最 小 
的 性 质 (最 小 均 方 简称 为 LMS) . 我 们 还 将 讨论 它 的 一 些 其 他 性 质 . 

考虑 在 没有 观测 值 x 的 情况 下 用 常数 6 来 估计 @ 这 个 简单 的 问题 . 估计 误 
差 6- 是 随机 的 (因为 9 是 随机 的 ) 但 是 均 方 误差 E[(8 -6)3] 是 一 个 由 6 所 
决定 的 数 , 可 以 达到 最 小 . 在 这 种 准则 下 , 最 好 的 估计 是 6 = E[8], 下 面 来 验证 这 一 
结论 . 

对 任何 估计 6, 有 


EL(e -人 六]= var(O —H)+(E[((O 一 的 )2 = var(O)+ (E[©] — )?; 


第 一 个 等 号 用 的 是 公式 E[2Z?] = var(2) + (E[21])?, 第 二 个 等 号 成 立 是 因为 减 去 常数 
6 不 改变 随机 变量 6 的 方差 . 现在 注意 到 var(6) 与 是 无 关 的 . 因此 只 要 选择 使 
(E[9] 一 六? 达到 最 小 的 8 也 就 是 6 = EI9]( 见 图 8.7). 

假设 现在 我 们 由 观测 值 X 来 估计 6, 同时 要 求 均 方 误差 最 小 一旦 得 到 久 
的 值 z, 情况 就 变 得 和 之 前 讨论 的 一 样 , 但 是 我 们 已 经 进入 一 个 新 的 “世界 ” ,就 
是 所 有 的 事情 都 取决 于 X = zx、 所 以 可 以 把 之 前 的 结论 拿 过 来 并 且 得 到 结论 : 
条 件 期 望 BlI9IX = z] 在 所 有 常数 6 中 使 得 条 件 均 方 误差 E[I(e - 人 ?|X = z] 达到 
最 小 . 
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估计 的 均 方 误差 。 
El(© -=var(O) + (E[O] -6) 


var(O)|----------- -~ 


E[e] 
图 8.7 均 方 误差 E[(9 -名 )] 是 关于 估计 值 6 的 二 次 函数 , 在 6 = E[6] 时 达到 最 小 . 均 方 误 
差 的 最 小 值 是 var(G) 
广义 上 来 说 , 估计 量 为 9(X) 的 ( 非 条 件 ) 均 方 估计 误差 定义 为 
E[(© — g(X))™. 
如 果 我 们 将 E[6|X] 视 为 X 的 函数 或 估计 量 , 下 面 的 分 析 说 明 在 所 有 可 能 的 估计 
量 中 , g(X) = E[8|X] 使 得 均 方 误差 最 小 .” 


| 关于 最 小 均 方 估计 的 重要 事实 


。 在 没有 观测 值 的 情况 下 , 当 人 = EIB] 时 E[(6 一 多?] 达到 最 小 : 
EI(96 -Ele])?] < EI(@ 一 9)?]， 对 所 有 6 成 立 . 


。 给 定 多 的 取 值 x, 当 6 二 EE[6|XX=2] 时 EI(e -所 )|X=z] 达到 最 小 : 


El(e — EIO|X =J])*|X =2] < EI(O -OX =z]， 对 所 有 6 成 立 . 


@ 对 于 任意 给 定 X 的 取 值 x, g(z) 是 一 个 数 , 因而 
E[(© — EI[©|X = zj])2|X = z] <E[l(O— 9g(z))2|X = z]. 


因此 ， 
E[(e - EIelX)2IX] < E[(© — 9(X))?|X], 


这 是 关于 两 个 随机 变量 (X 的 函数 ) 的 不 等 式 . 对 两 边 取 期 望 再 用 全 期 望 公式 , 得 到 结论 
Bf[(e ~ EIOIX])’] 和 BE[(e ~ 9(X))], 


对 于 所 有 估计 量 9(X) 成 立 . 
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。 在 所 有 的 基于 XX 的 昌 的 估计 量 g(X) 中 , 当 g(X) = E[B|X] 时 均 方 估计 
误差 EI(6 一 g(X))”] 达到 最 小 


E[(e 一 E[8|X])3| < E[(6 -9(E))3， 对 所 有 估计 量 g(X). 


例 8.11 设 B 服从 [4,10] 上 的 均匀 分 布 . 假设 在 观测 6 时 伴 有 随机 误差 W. 特别 
地 , 观测 到 随机 变量 的 值 是 


=A+W, 


假设 W 是 服从 [-1,1] 上 的 均匀 分 布 且 与 6 独立 . 
为 计算 E[6|X = 2], 注意 到 fe(9) = 1/6 当 4<9<10, 否则 fe(9)=0. 在 6 
取 9 的 情况 下 , X 就 是 9 十 W, 并 且 服 从 于 [0 一 1, 9 二 1] 区间 上 的 均匀 分 布 . 因此 ， 
联合 密度 为 
fe,x(0,7) = fe(0)fxle(zle) = -= 走 ， 
当 4<0<10 且 4-1<gxsg09+1, 对 于 其 他 (9, z) 取 值 为 0. 图 8.8 右边 中 的 平 
行 四 边 形 是 fe,x(9,x) 取 值 不 为 0 的 (6,z) 取 值 的 集合 . 


X=O+W 
W 在 区 间 [ 一 1, 1] 
上 均匀 分 布 


， ”最 小 均 太 估计 
E[G|X+ 可 


图 8.8 例 8.11 中 的 密度 函数 . 8 和 X 的 联合 密度 函数 是 在 右边 图 中 平行 四 边 形 内 的 均匀 
分 布 . 给 定 随 机 变量 X = 日 十 本 的 取 值 >, © 的 最 小 均 方 估计 由 z 和 右边 所 示 的 分 
段 线性 函数 决定 


给 定 了 = x, 后 验 密度 函数 fejx 相应 于 平行 四 边 形 的 纵 断 面 是 均匀 分 布 的 . 
因此 E[eIX = z] 是 断面 的 中 点 , 在 这 个 例子 中 恰好 是 xz 的 分 段 线 性 函数 . 在 给 定 
和 =z 的 情况 下 , 均 方 误差 定义 为 E[(e - E[6|X])?|X = 2], 是 8 的 条 件 方 差 . 它 
是 z 的 函数 , 解释 见 图 8.9. : 口 
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图 8.9 ” 例 8.11 中 的 估计 的 条 件 均 方 误差 , 它 是 关于 X 的 观测 值 x 的 函数 . 注意 , 有 一 些 观 
测 值 要 优 于 其 他 的 . 比如 , 若 XX = 3, 则 可 确定 9 = 4 且 条 件 均 方 误差 为 0 


例 8.12 考虑 例 8.7 中 朱丽叶 第 一 次 约会 中 迟到 时 间 服 从 [0, 9] 区 间 上 均匀 分 布 
的 随机 变量 X. 这 里 8 是 一 个 未 知 的 随机 变量 , 它 的 先 验 分 布 fo 服从 [0,1] 上 的 
均匀 分 布 . 在 那个 例子 中 , 已 知 最 大 后 验 概率 估计 等 于 z 且 最 小 均 方 估计 是 


1 1 1—zx 
EIOIX = =-/ Oo d0 = Te 


下 面 来 计算 最 大 后 验 概率 估计 和 最 小 均 方 估计 的 条 件 均 方 误差 . 给 定 X = z， 
对 于 任意 的 6 有 
EI(6 _ @)?IX = =/ (6 — 0)?. el 


1 
A A 1 
2 02、. 
=/ (0? — 280 + 6). Fozaldd 


_ fj2(1 一切 1— zx? 
|logzl 2|llogz| 


对 于 最 大 后 验 概率 估计 , 6 = z, 条 件 均 方 误差 是 


3z2 一 4Z 十 1 


E[(6 — 8)2|X =z]= 2 + og 


对 于 最 小 均 方 估计 , 6 = (1 -x)/|logz|, 条 件 均 方 误差 是 


A 1—z? 1 一 zN? 

6- en- 一 2 人 (二 ) 
图 8.10 绘制 了 两 种 估计 (最 大 后 验 概率 估计 和 最 小 均 方 估计 ) 的 条 件 均 方 误 
差 . 可 以 看 出 最 小 均 方 估计 有 一 致 的 相对 较 小 的 均 方 误差 . 这 是 最 小 均 方 估计 量 的 
总 体 优良 性 能 的 体现 . 口 
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最 大 后 验 概率 合计 | 
: 最 小 均 方 估计 


ttt At 
0 0.1 0.2 0.3 0.4 05 06 07 08 0.9 1 
LT 


图 8.10 例 8.12 中 最 大 后 验 概率 估计 和 最 小 均 方 估 计 的 比较 


例 8.13 ”考虑 例 8.8 中 的 模型 , 观测 n 次 投 撕 一 枚 不 均匀 的 硬币 正面 朝 上 的 次 数 
XX. 假设 8@( 正 面 朝 上 的 概率 ) 的 先 验 分 布 是 [0, 1] 上 的 均匀 分 布 . 在 那个 例子 中 , 当 
区 = 有 时, 后 验 密度 是 参数 a = 上 十 1 和 6 =n 一 k+1 的 贝塔 密度 , 旦 最 大 后 验 概 
率 等 于 k/n. 通过 贝塔 密度 的 矩 估计 公式 (参见 例 8.4), 得 到 
(k++ 1)(k+2)... (k++m) 


BIO™IX == (n+2)n+3).. (n+t+m+1)’ 


特别 地 , 最 小 均 方 估计 为 
BIOIX = = 3 


给 定 X =&, 任何 估计 6 的 条 件 均 方 误差 是 
E[(6 — 8)*|X = 7] = -26E[O|X =+E[O?|X = 


kK+1 (k+l1)(k+2) 


=02 — 26 . 
nti+2 (n+2)(n+3) 


最 大 后 验 概率 估计 的 条 件 均 方 误差 是 
E[(6 ~ 8)?|X = -| (人 一 e] Ix = | 


k2 Ok k+l (k+l1)(k+2) 
n n nt+2 (n+2)(n+3). 


372 第 8 章 贝 叶 斯 统计 推断 


最 小 均 方 估计 的 条 件 均 方 误差 是 


El(6 - 8)?|X =h] =E[IO?|X = A — (PIOIX = A) 


(k++ 1)(k+2) () 
(n+2)(n+3) n+2/ 


图 8.11 画 出 了 投掷 m”= 15 次 的 结果 . 值得 注意 的 是 , 和 前 面 的 例子 一 样 , 最 小 均 方 
估计 有 一 致 的 相对 较 小 的 条 件 均 方 误差 . 口 


估计 值 


图 8.11 在 投掷 15 次 (n = 15) 的 情况 下 , 最 大 后 验 概率 估计 和 最 小 均 方 估计 及 其 条 件 均 方 误 
差 之 比较 (参见 例 8.13) 


8.3.1 ”估计 误差 的 一 些 性 质 
将 最 小 均 方 估计 和 相应 的 估计 误差 分 别 记 为 
e=EIeZ，6=6-e， 
随机 变量 @@ 和 昌 有 一 些 很 有 用 的 性 质 , 它们 在 4.3 节 中 已 经 推导 得 到 , 而 在 这 里 
只 是 简单 引用 重复 的 引述 如 下 (注意 记号 上 的 变化 , 在 4.3 节 中 , 观测 值 记 为 了, 待 
估 参 数 记 为 X, 而 在 这 里 却 分 别 记 为 X 和 6). 


估计 误差 的 性 质 


。 估 计 误差 日 是 无 偏 的 , 具体 说 来 它 的 条 件 期 望 和 非 条 件 期 望都 是 0: 
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EI6@] =0， EI6@|X= 2] =0， 对 所 有 zx. 
。 估计 误差 日 和 估计 量 日 是 不 相关 的 : 
cov(©, ©) = 0. 


。 昌 的 方差 可 以 分 解 为 


var(©) = var(©) + var(©). 


例 8.14 ” 称 观 测 X 是 无 信息 的 , 如 果 均 方 误差 EI6?] = var(6) 和 var(6)(e 的 无 
条 件 方差 ) 是 一 样 的 . 什么 时 候 会 出 现 这 样 的 情形 呢 ? 

利用 公式 

var(6) = var(©) + var(©), 

由 上 式 看 出 X 是 无 信息 的 当 且 仅 当 var(6) = 0. 一 个 随机 变量 的 方差 为 0 当 目 仅 
当 该 随机 变量 是 一 个 常数 , 与 其 均值 相等 , 于 是 得 到 结论 X 是 无 信息 的 当 且 仅 当 
估计 日 = 了 [elX] 与 E[8] 相等 ( 对 于 X 的 任意 取 值 ). 

若 6 和 XX 是 独立 的 , 对 于 所 有 的 z 都 有 E[6|X = z] = E[e], 很 直观 地 可 以 
看 出 事实 上 X 是 无 信息 的 . 反 过 来 却 不 成 立 ， 有 可 能 E[6@|X = zj] 总 是 等 于 常数 
E[B], 但 是 @ 和 X 不 独立 . (你 能 构造 一 个 例子 吗 ?) 口 


8.3.2 ”多 次 观测 和 多 参数 情况 


前 面 的 讨论 都 是 建立 在 X 是 一 元 随机 变量 的 基础 之 上 ， 但 是 完整 的 论证 和 
结论 在 X 是 随机 向 量 X = (Xi1,… , Xn) 时 也 适用 ， 因 此 , 均 方 估计 误差 在 选 
BIe|Xi，…… , Xn] 作为 佑 计量 的 时 候 达到 最 小 , 即 


EI(9 — E[O|X1,... , Xn)"] < E[(O — g(X1,... , Xn) 


对 于 所 有 的 估计 量 g(X1,… ,X) 都 成 立 . 

这 就 对 一 般 的 最 小 均 方 估计 给 出 了 完整 的 解决 方案 , 但 是 它 一 般 很 难 实现 , 主 
要 有 以 下 一 些 原因 : 

(a) 为 计算 条 件 期 望 E[6|X1,.… ,X], 需要 建立 概率 模型 得 到 联合 分 布 密度 函 
数 和 xi 

(b) 即使 可 以 找到 联合 分 布 密度 函数 , E[B|X1,… , XX,] 可 能 是 一 个 关于 X1,.… ， 
X 的 很 复杂 的 函数 . 

因此 , 实际 中 常常 求助 于 条 件 期 望 的 近似 值 , 或 者 更 关注 于 那些 并 不 最 优 但 是 
简单 而 易于 实现 的 估计 量 . 最 常用 的 方法 (在 8.4 节 讨 论 ) 加 入 了 线性 估计 的 约束 . 
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最 后 , 我 们 考虑 估计 多 参数 91,.… , Bm 的 情况 . 最 自然 的 是 考虑 准则 
E[(9: — ©1)] +.…+E[(Om - Om)’], 


我 们 的 目的 是 求 估计 量 61,.… ,@w, 使 得 上 式 在 一 切 估计 量 中 达到 最 小 . 但 是 这 与 
寻找 每 个 @, 使 得 ElI(e6, - 6;)?] 达到 最 小 是 等 价 的 . 因此 , 多 参数 的 估计 问题 本 质 
上 是 在 处 理 m 个 单 参数 的 估计 问题 ， 对 于 每 个 参数 6;, 其 相应 的 最 小 均 方 估计 为 
©; = E[Gi| Xi , Xn], 对 所 有 i 均 成 立 . 
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在 本 节 中 , 我 们 在 一 个 较 小 的 统计 量 的 集合 类 中 寻找 统计 量 使 得 均 方 误差 最 
小 : 那些 观测 值 的 线性 函数 的 集合 类 . 虽然 这 种 统计 量 会 导致 较 高 的 均 方 误差 , 但 
是 在 实际 中 有 明显 的 优势 ， 对 计算 要 求 简单 , 只 包括 均值 、 方 差 以 及 观测 与 参数 之 
间 的 协 方差 . 在 最 大 后 验 估计 量 和 最 小 均 方 估计 量 难以 计算 的 情况 下 , 这 是 个 很 有 
用 的 替代 估计 量 . 

基于 观测 Xi … ,Xn 的 9 的 线性 估计 量 形式 为 

人 = alXI 十 :十 an 和 +b. 
给 定 a1,… ,an,b, 相应 的 均 方 误差 是 
ElI(e — a Xi —...— anXn —b)2]. 


线性 最 小 均 方 估计 选择 a1,.… ,an,b 使 得 上 面 的 表达 式 取 最 小 值 . 我 们 首先 解决 
n= 二 1 的 情况 , 然后 再 将 解法 推广 . 


8.4.1 ”一 次 观测 的 线性 最 小 均 方 估计 


现在 我 们 感 兴趣 的 问题 是 找到 8 的 线性 估计 aX 十 b, 使 得 均 方 误差 E[(8 一 
aX 一 5)?] 达到 最 小 . 假设 已 经 选 好 了 a, 如 何 选 5b 呢 ? 这 个 问题 等 价 于 选择 常数 5 
来 估计 随机 变量 6 - oX. 通过 8.3 节 最 初 的 讨论 , 最 好 的 选择 是 


b= El — aX] = El] ~ aE[X]. 
选择 了 5 之 后 , 剩 下 的 问题 是 选择 a 使 得 下 面 的 表达 式 取 最 小 值 : 
E[((© — aX ~ E[] + aE[X])2]. 
将 表达 式 写 为 


var(© — aX) = o8 十 a2o +2cov(O,—aX)=08 二 ao — 2a.cov(O, X), 
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其 中 ce 和 ox 分别 是 6 和 X 的 标准 差 , 上 且 
cov(©, X) = E[(© — EI©])(X — E[X])] 


是 6 和 XX 的 协 方差 . 为 使 var(8 - aX)( 关 于 ua 的 一 个 二 次 函数 ) 达到 最 小 , 令 表 
达 式 的 导数 为 0, 求解 a. 得 到 


cov(O, X) poeox Ce 
TT od Pax 
Xx x x 
其 中 
_ cov(B,X) 


OOOX 


是 8 和 X 的 相关 系数 . 根据 a 的 选择 , 所 选 线性 估计 量 @ 的 均 方 估计 误差 是 
var(© — ©) =0% + a20% -2a . cov(O, X) 


2 
2 208 2 Ce 
一 08 十 六 oa 一 20 一 Doeax 
Ox Ox 


=(1 — p?)o8. 


线性 最 小 均 方 估 计 的 公式 
。 基于 贸 的 日 的 线性 最 小 均 方 估计 日 是 


6=E[el+ OX) (x ~ EIx]) = Bl9l + p(X ~ EIX]) 


p= cov(O, X) 
OOxX 
是 相关 系数 . 
。 所 得 均 方 估计 误差 是 


(1 — p2)o%. 


线性 最 小 均 方 估计 的 公式 只 包括 均值 、 方差 以 及 8 与 X 间 的 协 方差 . 更 进 一 
步 , 它 有 个 直观 的 解释 . 为 描述 准确 起 见 , 假设 相关 系数 p 是 正 的 . 估计 量 以 6 的 
基本 估计 B[9] 为 基础 , 通过 X - E[X] 的 取 值 来 调整 . 举例 来 说 , 当 X 比 均值 大 ， 
则 XX 与 @ 之 间 的 正 相 关系 数 告诉 我 们 预期 中 的 6 将 大 于 它 的 均值 . 因此 , 估计 量 
会 是 一 个 大 于 E[] 的 取 值 . p 的 取 值 同 样 也 会 影响 估计 的 质量 . 当 |p| 接近 1 的 时 
候 , 两 个 随机 变量 高 度 相关 , 了 解 X 将 帮助 我 们 准确 地 估计 6, 从 而 均 方 误差 也 比 
较 小 . 
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最 后 注意 , 在 8.3 节 中 提 到 的 估计 误差 的 性 质 对 于 @ 的 线性 最 小 均 方 估计 量 
仍然 成 立 ( 参见 本 章 末 尾 的 习题 ). 
例 8.15 ”回顾 例 8.2、 例 8.7 和 例 8.12 中 的 模型 , 说 的 是 朱丽叶 第 一 次 约会 中 迟 
到 时 间 X 服从 区 间 [0, 6] 上 均匀 分 布 , 这 里 6 是 一 个 未 知 的 随机 变量 , 它 的 先 验 
分 布 fo 服从 [0,1] 上 的 均匀 分 布 . 下 面 来 求 基于 X 的 8 的 线性 最 小 均 方 估计 -. 

利用 事实 EIXI6] = 6/2 和 重 期 望 法 则 , X 的 期 望 值 是 

EIX] = EIEIXIe] = 了 加 -3 

进一步 , 利用 全 方差 法 则 ( 同 第 4 章 例 4.17 中 的 计算 ), 得 到 


7 


var( 久 ) = IT: 


现在 计算 XX 和 6 间 的 协 方差 , 根据 公式 
cov(O, X) = E[OX] — E[O]E[X], 
和 事实 1 
Elea = var(e)+ (Ele)? = 石 + 了 = 
于 是 有 
日 ? 


Elex] = EIElexlell = EleE[Xlell = a -= 


其 中 第 一 个 等 式 用 的 是 重 期 望 法 则 , 第 二 个 等 号 成 立 是 因为 对 所 有 的 0， 
ElI9XIe =0 = EX|Ie =0 = 0E[X|© = 9. 
因此 
cov(@, X) = EIOX] _ EIOIE[X] = 工 - 工 . 工 -= 工 . 
线性 最 小 均 方 估计 量 是 


cov(O, X) 
var(X) 


相应 的 条 件 均 方 误差 按照 例 8.12 中 公式 计算 ， 


6 = Ele]+ (X - Bx) 一 二 + (区 了) = 9X+3 


2(1 一 zZ) 1 一 2Z2 

|logzl 2|logz|’ 
再 将 6 = (6/7)z + (2/7) 代入 上 式 , 就 得 到 条 件 均 方 误差 . 在 图 8.12 中 , 我 们 将 线 
性 最 小 均 方 估计 量 、 最 大 后 验 概 率 估计 量 和 最 小 均 方 估计 量 ( 见 例 8.2、 例 8.7 和 


E[((6— 6)?|X=z]=0 -6 
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例 8.12) 放 在 一 起 比较 . 注意 到 最 小 均 方 估计 量 和 线性 最 小 均 方 估计 量 在 图 中 大 部 
分 感 兴趣 的 区 域 是 一 致 的 , 相应 的 条 件 均 方 误差 也 是 如 此 . 而 最 大 后 验 概率 估计 量 
与 其 他 两 个 估计 量 相 比 很 明显 有 较 大 的 均 方 误差 . 当 > 趋 近 于 1 时 , 线性 最 小 均 方 
佑 计量 比 其 他 两 个 佑 计量 的 效果 要 差 , 有 的 甚至 给 出 6 > 1 的 估计 值 , 这 已 经 在 6 
可 能 取 值 的 范围 之 外 了 . 口 


估计 值 


最 大 后 验 概率 估计 
+ ”最 小 均 方 估计 
线性 最 小 均 方 估计 


| EE 9 
0 01 02 03 04 05 06 07 08 0.9 1 
也 


图 8.12 例 8.15 中 三 个 估计 量 以 及 其 条 件 均 方 误 差 的 比较 


例 8.16 (不 均匀 硬币 的 线性 最 小 均 方 估计 ) ”再 考虑 例 8.4、 例 8.8 和 例 8.13 中 提 
到 的 硬币 投掷 问题 , 现在 来 求 线性 最 小 均 方 估计 量 . 在 这 一 问题 中 , 随机 变量 6( 正 
面 朝 上 的 概率 ) 的 先 验 分 布 是 [0,1] 上 的 均匀 分 布 . 将 一 枚 不 均匀 的 硬币 独立 地 投 
掷 ”次 , 观测 到 正面 朝 上 的 次 数 为 X. 因此 如 果 6 等 于 0, 那么 随机 变量 X 服从 
参数 为 n 和 9 的 二 项 分 布 . 

分 别 计算 线性 最 小 均 方 估 计量 公式 中 的 系数 . 已 知 E[6] = 1/2 和 


E[X] = EI[E[X|O]] = Elne] = 7 
8 的 方差 是 1/12, 所 以 ce = 1/V12. 同样 , 前 面 的 例子 中 已 经 算得 El62] = 1/3. 
当 6 取 值 为 6, X 的 (条 件 ) 方差 是 nb(1 - 9). 利用 全 方差 准则 , 得 到 
var(X) =ElvarX|O] + var(E[X|O]) 


=E[ne(l — ©)] + var(n©) 
2 


nn nn n 
2 3 12 
_n(n+2) 
12 
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为 了 计算 X 和 6 的 协 方 差 , 利用 公式 
cov(e,X) = E[OX] ~ E[OJE[X] = EIOX] — 1. 
类 似 例 8.15 有 
EIOX] = E[E[OX|O]] = FIOE[LX|O)] = Ene3 = 5, 


所 以 Tn nn n 
cov(©,X) 一 3 一 4 一 12° 
将 所 有 的 计算 结果 代入 线性 最 小 均 方 估 计量 的 公式 , 得 到 


n/12 
n(n+t+2)/12 


1 n 十 1 
区 一 一 ) 一 . 
( 2) n++2 


a 1 n 1 

90=3+ 从 一 到 
注意 , 这 与 之 前 例 8.13 中 得 到 的 最 小 均 方 估计 是 一 致 的 . 这 并 不 奇怪 : 如 果 最 小 均 
方 估计 量 是 线性 的 , 就 如 例 8.13 中 那样 , 则 此 估计 量 在 线性 估计 量 (更 小 的 类 ) 中 
仍然 是 最 优 的 . 口 


8.4.2 ”多 次 观测 和 多 参数 情形 


现在 将 求 线性 最 小 均 方 估 计 的 方法 推广 到 多 元 观测 的 情形 ， 由 单 次 观察 值 的 
情形 推广 到 多 次 观察 值 到 情形 并 不 带 来 本 质 上 到 困难 , 用 完全 相似 的 方法 可 推导 得 
到 线性 最 小 均 方 估计 的 公式 . 线性 估计 的 系数 只 和 各 观察 值 的 均值 、 方差 以 及 不 同 
的 随机 变量 对 的 协 方差 有 关 . 同样 的 对 于 多 参数 8; 估计 , 考虑 准则 


E[(O1 — 1)2] +…… + E[(Om — 6)?]， 


使 其 在 所 有 估计 量 1,… ,6@m 都 是 观测 值 的 线性 函数 的 情况 下 达到 最 小 . 这 与 寻 
找 每 个 日; 使 得 EE[(6; - 6;)?] 达到 最 小 是 等 价 的 , 因此 本 质 上 将 问题 化 解 成 m 个 
单 参数 的 线性 最 小 均 方 估计 的 求解 问题 . 

在 多 元 观测 且 相 互 独立 的 情况 下 , 单个 参数 的 线性 最 小 均 方 估计 量 的 公式 可 以 
简化 如 下 . 6 是 均值 为 也 方差 为 ci 的 随机 变量 , Xi1,… , Xn 是 具有 如 下 形式 的 多 
次 观测 

Xi = 9 二 Wi, 


其 中 观测 误差 Wi 是 均值 为 0 方差 为 o? 的 随机 变量 . 假设 6, Wi,… ,Wi 是 各 不 
相关 的 , 基于 观测 值 X1,.… ,X 的 9 的 线性 最 小 均 方 估计 量 是 


BWR+ ZE 
2i0 1/o? 
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上 面 的 结果 的 推导 是 非常 简单 的 . 我 们 的 目标 函数 为 
h(a ,an;b) = E[(O ~ a1X1 一 … 一 anXn — b)2), 


为 求 其 最 小 值 , 令 其 关于 a1,… ,ab 的 偏 导数 分 别 为 0. 经 过 计算 (本 章 末尾 的 习 
题 中 给 出 ) 得 到 前 面 线性 最 小 均 方 估计 量 公式 中 的 系数 为 


-LU -Lo ; 
一 ? 一 n » 
Dio 1/o2 ’ 2i-0 1/0? 


8.4.3 ”线性 估计 和 正 态 模型 


线性 最 小 均 方 估计 量 往往 和 最 小 均 方 估计 量 有 着 不 同 的 形式 , 因而 它 是 次 于 最 
小 均 方 估计 量 的 . 但 是 如 果 最 小 均 方 估计 量 恰 好 是 观测 值 X1,… , Xn 的 线性 函数 ， 
则 它 同时 也 为 线性 最 小 均 方 估计 量 , 也 即 两 个 估计 量 重合 . 

这 种 情况 发 生 的 一 个 重要 例子 是 : © 是 一 个 正 态 随机 变量 , 观测 值 是 XX; = 
6 十 Wi, 其 中 Wi 是 独立 零 均值 的 正 态 噪 声 项 , 同时 与 © 独立 . 这 个 模型 与 例 8.3 
中 的 一 样 , 我 们 看 到 6 的 后 验 分 布 是 正 态 的 , 其 条 件 均值 E[6|Xi1,… , xn] 是 观测 
值 的 线性 函数 . 因此 , 最 小 均 方 估计 量 和 线性 最 小 均 方 估计 量 是 重合 的 . 事实 上 , 本 
节 中 给 出 的 线性 最 小 均 方 估计 量 的 公式 和 例 8.3 中 后 验 均值 6 的 表达 式 是 一 致 的 . 
这 个 结果 还 可 以 进一步 推广 ， 如 果 6, Xi,… ,Xn 都 是 一 些 独立 正 态 随 机 变量 的 
线性 函数 , 那么 最 小 均 方 估计 和 线性 最 小 均 方 估计 量 是 一 致 的 . 它们 和 最 大 后 验 概 
率 统计 量 也 是 一 致 的 , 这 是 由 于 正 态 分 布 是 单 峰 对 称 的 . 

上 面 的 讨论 提出 了 线性 最 小 均 方 估计 量 的 一 种 有 趣 的 性 质 ， 将 原 模型 进行 改 
变 , 在 保持 均值 、 方 差 和 协 方差 不 变 的 情况 下 , 假设 牵涉 到 的 随机 变量 都 服从 正 态 
分 布 , 在 改变 了 的 模型 中 得 到 的 估计 量 (最 大 后 验 概率 估计 量 、 最 小 均 方 估计 量 和 
线性 最 小 均 方 估计 量 都 是 相同 的 ) 恰好 就 是 原 模型 中 的 线性 最 小 均 方 估计 量 . 因此 ， 
线性 最 小 均 方 估计 量 有 两 方面 的 价值 ， 一 种 是 计算 的 简便 (避免 公式 E[elX] 的 复 
杂 计 算 ), 另 一 种 是 模型 的 简化 (用 正 态 分 布 蔡 代 较 难 处 理 的 分 布 ). 


8.4.4 ”线性 估计 的 变量 选择 


下 面 指 出 线性 最 小 均 方 估计 和 最 小 均 方 估计 的 一 个 重要 区 别 . 考虑 一 个 未 知 的 
随机 变量 6, 观测 值 Xi,… ,Xn 以 及 经 过 变换 的 观测 值 Y; = h(X;), i = 1 
其 中 函数 h 是 一 个 变量 的 一 对 一 变换 . 经 过 变换 后 的 观测 值 和 原始 的 观测 值 X， 
所 传达 的 信息 是 相同 的 , 因此 基于 六 ,…. ,Y, 的 最 小 均 方 估计 和 基于 Xi,…. 大， 
的 最 小 均 方 估计 是 一 样 的 : 


= 1,.…. ,Nn. 


EIO|h(X1),... ,h(Xn)] = EIOIX1,:.. ,Xnl]. 
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另 一 方面 , 线性 最 小 均 方 估计 存在 的 前 提 是 在 观测 X1,… ,Xn 的 线性 函数 类 
中 存在 9 的 合理 的 估计 量 ; 但 这 并 不 总 是 成 立 的 . 比如 , © 是 某 分 布 的 未 知 方差， 
而 六, ,X 是 从 那个 分 布 独立 抽样 的 随机 变量 . 如 此 一 来 , 希望 从 Xi1,… ,Xn 
的 线性 函数 中 找 出 @ 的 好 的 估计 是 不 可 能 的 . 这 也 说 明 对 观测 的 变换 对 于 找到 6 
的 好 的 估计 是 有 帮助 的 . 要 找到 合适 的 变换 并 不 总 是 很 容易 的 , 对 问题 结构 的 直觉 
往往 可 以 提供 一 些 比较 好 的 选择 . 习题 17 就 是 一 个 简单 的 例子 . 


8.5 “小 结 和 讨论 


本 章 介绍 了 统计 推断 方法 , 其 目的 是 从 概率 相关 的 观测 中 提取 未 知 变量 或 模型 
的 信息 . 我 们 关注 未 知 量 是 一 个 (也 可 能 是 多 个 ) 参数 9, 并 且 讨论 了 假设 检验 和 个 
计 问 题 . 

我 们 已 经 对 贝 叶 斯 和 经 典 统计 推断 方法 做 了 区 分 . 本 章 着 重 讨论 贝 叶 斯 方法 ， 
即将 参数 看 作 具 有 先 验 分 布 的 随机 变量 6. 最 感 兴趣 的 目标 是 给 定 观测 时 8 的 后 
验 分 布 . 后 验 分 布 从 原理 上 说 可 以 通过 贝 叶 斯 准则 来 计算 , 但 是 实际 上 , 这 是 一 项 
很 艰巨 的 任务 . 

最 大 后 验 概率 准则 (使 6 的 后 验 概率 达到 最 大 ) 是 用 途 广泛 的 推断 方法 , 可 以 
用 于 估计 和 假设 检验 问题 . 我 们 还 讨论 了 其 他 两 种 参数 估计 的 方法 : 最 小 均 方 (或 
条 件 期 望 ) 估计 量 和 线性 最 小 均 方 估 计量 . 它们 基于 使 @ 和 它 的 估计 间 的 均 方 误差 
最 小 化 的 原则 . 线性 最 小 均 方 估计 有 时 会 导致 较 大 的 均 方 误差 , 但 是 计算 简单 , 且 
只 与 相关 变量 的 均值 、 方 差 和 6 与 观测 之 间 的 协 方差 有 关 . 在 8 和 观测 随机 变量 
都 服从 正 态 分 布 的 假设 下 , 最 大 后 验 概 率 估 计量 和 两 个 最 小 均 方 估计 量 是 重合 的 . 


习 ” 显 


8.1 节 ” 贝 叶 斯 推断 和 后 验 分 布 


1. 阿 特 米 亚 搬入 了 一 间 新 房子 , 但 是 她 只 有 50% 的 概率 确定 她 的 电话 是 2537267. 为 了 确 
定 , 她 用 房子 里 的 电话 机 拨打 了 2537267, 结果 接 到 了 “忙碌 ”的 提示 , 她 因此 得 出 结论 这 
个 号 码 是 正确 的 . 假设 在 任何 时 间 内 一 个 典型 的 7 位 数 电 话 号 码 忙碌 的 概率 是 1%, 那么 
阿 特 米 亚 的 结论 是 正确 的 概率 为 多 少 呢 ? 

2. 学 生 南 菲 丽 在 概率 论 课堂 上 做 选择 题 测试 . 试题 有 10 个 问题 , 每 个 问题 包含 3 个 选项 . 
每 道 是 有 两 种 可 能 的 情况 , 且 题 与 题 之 间 是 独立 的 : 她 知道 答案 , 这 样 她 就 能 够 答对 选择 
题 ; 她 不 知道 答案 , 会 猜 答案 , 但 是 有 1/3 的 概率 猜 对 答案 . 

(a) 假设 南 菲 丽 答 对 了 第 一 道 题 , 她 的 确 知道 这 题 正确 答案 的 概率 是 多 大 ? 
(b) 假设 南 菲 丽 答对 了 10 道 题 中 的 6 道 , 她 的 确 知道 答案 的 题目 数 的 后 验 分 布 列 是 什 


么 ? 
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8.2 节 ”点 估计 , 假设 检验 , 最 大 后 验 概率 准则 


3. 


ed 


相继 到 达 阿 尔 文 乘 车 的 公交 站 的 两 辆 公交 车 之 间 的 间隔 时 间 (分 钟 ) 是 一 个 随机 变量 , 其 
分 钟 数 服从 参数 日 的 指数 分 布 . 6 的 先 验 概率 密度 函数 是 


100， 车 b € [0, 1/5] 
6) 一 
fe(0) {: 其 他 . 


(a) 周一 , 阿尔 文 到 达 车 站 后 等 了 30 分 钟 汽车 才 来 . 问 9 的 后 验 概率 密度 函数 、 最 大 
后 验 概率 估计 和 条 件 期 望 估计 分 别 是 什么 ? 

(b) 基于 周一 的 经 验 , 阿尔 文 决定 更 准确 地 估计 6, 于 是 记录 了 他 5 天 的 等 车 时 间 分 别 
为 30, 25, 15, 40 和 20, 并 且 假 设 观测 值 相互 独立 ， 问 基于 5 天 的 观测 数据 , @ 的 
后 验 概率 密度 函数 、 最 大 后 验 概率 估计 和 条 件 期 望 估计 分 别 是 什么 ? 


.学生 们 在 概率 论 课 上 做 选择 题 , 共 10 道 , 每 题 三 个 选项 . 知道 答案 的 学 生 能 够 正确 作答 ， 


不 知道 答案 的 会 猜 答案 且 猜 对 的 概率 为 1/3. 每 个 学 生 属 于 下 面 三 个 类 别 i = 1,2,3 的 

概率 是 相等 的 ; 知道 每 题 答案 的 概率 9;, 其 中 91 = 0.3, ga = 0.7, bs = 0.95( 题 与 题 之 间 

独立 ). 假设 随机 抽取 的 一 个 学 生 答对 了 个 问题 . 

(a) 对 于 的 每 一 取 值 , 求 这 个 学 生 属 于 哪 一 类 别 的 最 大 后 验 概率 估计 . 

(b) 设 M 是 这 个 学 生 知 道 答案 的 题目 数 . 在 这 个 学 生 答对 了 5 道 题 的 情况 下 , 计算 M 
的 后 验 密度 函数 、 最 大 后 验 概率 估计 和 最 小 均 方 估计 . 


， 将 例 8.4 中 不 均匀 硬币 问题 稍 加 变动 . 假设 正面 朝 上 的 概率 © 分 布 在 [0, 1] 区 间 , 密度 函 


数 为 
joe(0) =2-4|3 -6,0 eo 


假设 n 次 独立 硬币 投 撕 的 结果 是 次 正面 和 n 一 次 反面 , 求 9 的 最 大 后 验 概率 估计 


和 睡 许 难 教授 想 在 概率 论 考试 中 出 些 难题 , 她 正在 考虑 一 道 准 备 在 下 次 考试 中 出 的 题目 . 


此 她 让 助教 解 这 道 题目 并 记录 解 题 时 间 . 霍 许 难 所 认为 的 这 道 题 是 难题 (6 = 1) 的 先 验 
概率 为 0.3, 而 助教 解 题 时 间 的 条 件 分 布 密度 函数 (以 分 钟 为 单位 ) 为 


cie "94*， 车 5 < x < 60， 


frie(+| =1)= | 


0， 其 他 ， 
(9 = 1 表示 题目 难 )， 
cze-016z ”车 5< zx< 60， 
jxrlelzle =2) = 
"el® ) { 其 他 ， 


(8 = 2 表示 题目 不 难 ), 其 中 cl 和 c 为 归 一 化 常数 . 她 用 最 大 后 验 概率 准则 来 判断 这 个 

问题 是 否 难 . 

(a) 若 助 教 解 题 时 间 为 20 分 钟 , 她 将 接受 何 种 假设 ?而 犯错 误 的 概率 又 是 多 少 ? 

(b) 为 了 提高 她 的 判断 的 可 靠 性 , 霍 教授 让 4 个 助教 来 做 这 一 道 题 目 . 助教 的 解 题 时 间 
是 相互 独立 且 服 从 第 一 个 助教 的 解 题 时 间 的 分 布 . 记录 的 解 题 时 间 分 别 是 10, 25， 
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”一 


15, 35 分 钟 . 基于 这 5 个 观测 值 , 霍 教授 现在 将 接受 何 种 假设 ? 而 犯错 误 的 概率 又 
是 多 少 ? 

7. 现在 有 两 个 盒子 , 每 个 盒子 中 装 了 3 个 球 : 盒子 1 中 装 了 一 个 黑 球 两 个 白 球 , 盒子 2 中 
装 了 两 个 黑 球 一 个 白 球 . 我 们 随机 选择 一 个 盒子 , 其 中 选 盒子 1 的 概率 是 确定 的 p, 然后 
从 选 定 的 盒子 中 抽出 一 个 球 ， 

(a) 描述 通过 抽出 球 的 颜色 来 判断 盒子 编号 的 最 大 后 验 概率 准则 . 
(b) 假设 p = 1/2, 求 做 出 判断 时 犯错 的 概率 ， 并 与 不 抽 球 就 做 出 判断 时 犯错 的 概率 进行 
比较 . 

8. 已 知 硬币 正面 朝 上 的 概率 为 go( 假 设 Ho) 或 @ (假设 H1). 现 独 立 重复 地 投 硬币 ， 并 记 
录 在 首次 出 现 反面 朝 上 之 前 正面 朝 上 的 次 数 . 假设 0 < go < qt < 1， 且 给 定 先 验 概率 
P(Ho) 和 P( 二 !) 的 值 . 

(a) 给 定 在 首次 出 现 反面 之 前 出 现 了 大 次 正面 ， 计算 假设 Hi 正确 的 条 件 概率 (P(Hi) = 
P(H2) 一 1/2). 

(b) 考虑 决策 准则 : 当 有 > k* 时 选择 备 择 假设 Hi， 其 中 k* 为 一 非 负 整数 , 否则 就 选择 
假设 Ho. 假定 先 验 概率 P(H1) = P(H2) = 1/2, 试 给 出 这 个 决策 准则 犯错 概率 的 
公式 . 当 jp* 取 何 值 犯错 的 概率 达到 最 小 ? 还 有 其 他 类 型 的 决策 准则 可 以 进一步 降 
低 犯 错 的 概率 吗 ? 

(c) 假设 go = 0.3, qi = 0.7, P( 三 ) > 0.7. 在 P( 红 ) 从 0.7 变 到 1 的 过 程 中 ， 最 优选 
择 k*( 使 犯错 概率 达到 最 小 ) 是 如 何 变化 的 ? 

9.* 考虑 含有 m 重 假设 的 贝 叶 斯 假设 检验 问题 , 观测 向 量 为 XX = (Xi1,… ,Xn). gn(X1,.…* ,Xn) 
是 基于 Xi1,:… ,Xn 的 极 大 后 验 概率 估计 , gn-_1(X1,:… ,Xn-1) 是 基于 Xi,:… ,Xn_1 
的 最 大 后 验 概率 估计 (最 大 后 验 概率 准则 只 利用 观测 向 量 中 的 前 n 一 1 个 元 素 ). z = 
(zi ,Tn) 是 观测 向 量 的 实际 值 , 且 令 


en(z1,.** ,Tn) = P(O #9n(71, ,Tn)|X1 = 71,.* ,Xn = Zn), 


en_i(zi Tn-1) = P(O # gn-i(T1, Tn-1)|X1 = TZ1, ,Xn-1 = Zn-1); 
为 相应 犯错 概率 . 证 明 


en(zi Tn) & en-i(z Zn 1)， 
所 以 在 做 最 大 后 验 概率 决策 的 时 候 , 增加 数据 不 会 造成 犯错 概率 的 增加 . 
解 将 gs_1(Xi,… ,Xn_1) 看 作 基 于 观测 向 量 所 有 元 素 X1,… ,Xn 的 特殊 决策 准则 . 


由 于 极 大 后 验 概率 准则 gn (X1,… ,Xn) 使 犯错 概率 达到 最 小 (在 所 有 基于 X1,…… , X， 
的 准则 中 ), 即 得 结果 . 


8.3 节 ” 贝 叶 斯 最 小 均 方 估计 


10. 一 个 警方 的 测速 雷达 总 是 高 估 驶 来 汽车 的 速度 , 高 估 的 数量 服从 [0, 5] 英里 /时 的 均匀 分 
布 . 假设 汽车 行驶 的 速度 服从 [55, 75] 英里 /时 的 均匀 分 布 , 雷达 测量 的 汽车 速度 的 最 小 
均 方 估计 是 什么 ? 
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11. 商店 购物 车 的 数目 @ 服从 1 到 100 之 间 的 均匀 分 布 , 购物 车 从 1 到 @ 依次 编号 . 你 进 
入 商店 的 时 候 观测 到 的 第 一 辆 购物 车 的 编号 为 X, 并 假定 X 服从 1,… ,8 上 的 均匀 分 
布 . 现在 想 利 用 此 信息 来 估计 B. 找 出 最 大 后 验 概 率 估计 和 最 小 均 方 估 计 并 绘图 ， 提 示 : 
可 参见 例 8.2. 
12. 考虑 例 8.2 中 的 多 个 观测 变量 的 情况 : 给 定 6 = 9, 随机 变量 X1,… , X,, 相互 独立 且 服 
从 区 间 [0, 8] 上 的 均匀 分 布 , 8 的 先 验 分 布 是 区 间 [0,1 上 的 均匀 分 布 . 假设 n> 3. 
(a) 给 定 XZ,… ,Xn 的 值 z1,… ,zn, 求 日 的 最 小 均 方 估计 . 
(b) 当 n = 5 时 , 画 出 最 大 后 验 概率 估计 量 和 最 小 均 方 估计 量 的 条 件 均 方 误差 关于 
元 = max{z1,… ,Tn} 的 函数 图 像 . 
(c) 若 固定 5 = 0.5, 当 n 一 co, 最 大 后 验 概率 估计 、 最 小 均 方 估计 和 相应 的 条 件 均 方 
误差 的 表现 如 何 ? 
13.” (a) 六 ,… ,Y 是 独立 同 分 布 的 随机 变量 , Y = 六 十 … 十 证 明 E[Y|Y] = 
(b) 8 和 W 是 独立 零 均 值 正 态 随机 变量 , 方差 分 别 为 正 整数 上 和 m. 利用 (a) 的 结论 
求 EB[6@|6 + W], 并 确认 这 与 例 8.3 中 条 件 期 望 公式 是 一 样 的 . 提示 : 将 日 和 了 全 看 
作 独 立 随 机 变量 的 和 . 
(c) 重复 (b) 的 过 程 . 不 过 © 和 W 为 相互 独立 的 泊 松 随机 变量 , 均值 分 别 为 整数 入 和 


Kk. 
解 (a) 根据 对 称 性 , 对 每 个 i 来 说 E[Yi|Y] 是 一 样 的 . 进一步 地 ， 


E[Yi + + YlY] = EIYIY] = 


所 以 , E[YilY] = Y/n. 
(b) 可 以 将 @ 和 W 看 作 独 立 标准 正 态 随机 变量 的 和 : 


© = 1+.…+ Ox, W = Wit Wn. 
将 (a) 中 的 Y 看 作 昌 +W 得 到 


Fl: + W] = Dt. 
因此 ， 
Elele 十 厂 ]= Ble,+.…+ekle+ 友 = (+W). 
根据 例 8.3 中 条 件 均 信 的 公式 ,运用 到 本 是 的 情况 ( 零 完 蛤 均 信 、 间 观察 信 ) 得 
到 条 件 期 望 的 形式 为 
(@+W)/o% 
QoB) 07oB) ™ (+m me + W), 


与 这 里 的 答案 是 一 致 的 . 
(c) 回忆 独立 的 泊 松 随机 变量 的 和 的 分 布 还 是 泊 松 分 布 . 因此 (5) 中 的 论证 可 以 将 9 和 
W 看 作 和 (对 应 六 个 均值 为 1 独立 泊 松 随机 变量 之 和 , 即 得 


Elele + W] = pe +W). 
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8.4 节 ” 贝 叶 斯 线性 最 小 均 方 估计 


14. 


15, 


16. 


17. 


18. 


19. 


考虑 例 8.11 中 的 随机 变量 6 和 X. 求 6 的 基于 X 的 线性 最 小 均 方 估计 量 以 及 相应 的 
均 方 误差 . 

对 于 习题 11 中 的 购物 车 模型 , 找 出 最 大 后 验 概率 、 最 小 均 方 和 线性 最 小 均 方 估计 量 , 并 
画 出 它们 的 条 件 均 方 误差 关于 观测 到 购物 车 编号 的 函数 ， 

随机 变量 X 和 @ 的 联合 密度 函数 形式 为 


c， 车 (z,9) € 9， 


7,0) = 
fx,e(7z, 0) { 其 他 


其 中 c 是 常数 而 5S 是 集合 
S={(x,0|l0<7xz<2,0g<0g2,7-1&0<g7}. 


现 希 望 基于 X 来 估计 @. 

(a) 找 出 日 的 最 小 均 方 估计 g(z). 

(b) 计算 EI(@ 一 g(X))?|X = z], Elg(X)] 和 var(g(X)). 

(ce) 计算 均 方 误差 ELI(e - g(X))]. 它 和 Elvar(B@|X)] 是 一 样 的 吗 ? 

(d) 用 全 期 望 公 式 计算 var( 昌 )， 

(e) 求 6 的 基于 X 的 线性 最 小 均 方 估计 量 , 并 计算 其 均 方 误差 . 

日 是 已 知 均值 为 4 方差 为 o? 的 正 随机 变量 , 将 基于 具有 形式 X = VBW 的 测量 值 来 
进行 估计 . 假设 W 与 9 独立 , 其 均值 为 0, 方差 为 1 上 且 具有 已 知 的 四 阶 矩 BIW4]. 因此 ， 
给 定 9 的 情况 下 X 的 条 件 均值 和 方差 分 别 为 0 和 6. 我 们 的 目的 是 在 给 定 观 测 的 情况 
下 来 估计 X 的 条 件 方差 8. 试 分 别 找 出 © 基于 X 的 最 小 均 方 估计 量 以 及 基于 X? 的 
线性 最 小 均 方 估计 量 . 

知 下 的 蒲 丰 针 .医生 正在 医治 一 个 不 小 心 乔 下 一 根 针 的 病人 ， 决 定 要 不 要 做 手术 的 关键 
是 未 知 的 针 的 长 度 6, 假设 服从 0 到 1(> 0) 之 间 的 均匀 分 布 . 希望 基于 X 射线 下 投影 长 
度 X 来 估计 6. 建立 二 维 坐标 系 , 记 


X= OAcosWw, 


其 中 W 是 针 和 某 一 轴 形 成 的 夹 角 (锐角 ). 假设 W 服从 区 间 [0, r/3] 的 均匀 分 布 , 并 且 

与 日 独立 . 

(a) 试 求 最 小 均 方 估计 量 EIB|X].， 特别 地 , 写 出 Fxie(zl 人 )，jxle(zl9)，jx(z)，jelx 
(9|z), 并 计算 E[B|X = zl]. 提示 : 下 面 的 公式 将 很 有 用 : 


[ st Ve, | sae- 


(b) 试 求 9 基于 X 的 线性 最 小 均 方 估 计 以 及 相应 均 方 误差 . 

光 通 信 系统 中 的 光电 探测 器 , 对 给 定时 间 区 间 内 到 达 的 光子 进行 计数 . 用 户 通过 开关 光 
子 传送 器 来 传送 信息 . 假设 传送 器 开 着 的 概率 是 p. 当 传 送 器 开 着 的 时 候 , 传送 过 来 的 光 
子 的 个 数 © 服从 均值 为 和 的 泊 松 分 布 . 传送 器 关 着 的 时 候 不 传送 光子 . 


b 
Va2 一 c2| . 


a 
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遗憾 的 是 , 不 论 传送 器 是 关 还 是 开 , 由 于 “发 射 噪声 ”现象 的 存在 , 光子 都 有 可 能 被 
探测 到 . 发 射 噪声 被 探测 到 的 个 数 N 服从 均值 为 /的 泊 松 分 布 . 因此 , 探测 到 光子 的 总 
数 X 在 传送 器 开 着 的 时 候 是 © + NN, 关 着 的 时 候 是 N. 假设 6 和 N 是 独立 的 , 于 是 
十 入 服从 均值 为 和 十 4 的 泊 松 分 布 . 

(a) 给 定 光 电 探 测 器 探测 到 的 光子 数 k, 传送 器 开 着 的 概率 是 多 少 ? 
(b) 描述 判断 传送 器 是 否 开 着 的 最 大 后 验 概 率 准则 . 
(c) 基于 探测 到 的 光子 个 数 , 找 出 传送 光子 个 数 的 线性 最 小 均 方 估计 . 
20.” 球形 不 变 分 布 密度 函数 的 估计 . 6 和 X 是 连续 型 随机 变量 , 其 联合 分 布 密度 形式 为 
fe,x(0, 7) = h(q(0, x)), 
其 中 h 是非 负 标量 函数 , g(9, z) 是 二 次 函数 , 其 形式 为 
9g(0, 2) = a(0 — 0 +b(z — 2) — 2c(0 — (x — 1). 
这 里 a 了 0,b,c,6,5 是 一 些 标量 . 对 于 任意 z(E[B|X = z] 有 限 且 形式 固定 ), 给 出 最 小 
均 方 估计 和 线性 最 小 均 方 估计 . 假设 对 于 所 有 的 9, >, g(0, xz) > 0, h 单调 递减 . 给 出 最 
大 后 验 概率 估计 并 且说 明 它 和 最 小 均 方 估计 以 及 线性 最 小 均 方 估计 是 一 致 的 . 
解 9 的 后 验 概率 密度 是 
_ fe,x(0, 7) h(g(b, 7)) 
lox jl) 7 fx 
为 推导 最 小 均 方 和 线性 最 小 均 方 估计 , 首先 考虑 最 大 后 验 概率 估计 , 假设 对 于 所 有 的 0,z, 


(0,z) > 0, h 单调 递减 . 最 大 后 验 概率 估计 使 得 h(q(0, x)) 达到 最 大 , 又 因为 h 是 减 函 
数 , 则 要 选 6 使 得 g(9, xz) 达到 最 小 . 令 g(9,z) 导数 为 0, 得 到 


人 加 c 加 
9=0+-(2 -5). 


(这 里 用 到 结论 : 非 负 二 次 函数 的 最 小 值 在 导数 为 0 处 取得 .) 了 

现在 将 要 说 明 6 和 最 小 均 方 估计 和 线性 最 小 均 方 估计 是 等 价 的 (不 需要 假设 对 于 所 
有 的 9,z, g(g,z) > 0,h 单调 递减 ). 
记 


0 -6=0-6+£(¢— 5), 
将 g(9, zx) 的 表达 式 代入 并 经 过 一 些 代 数 计算 得 到 
q(0, x) = a(0 — 06)?+ ( 一 s) (z 一 五)”. 


因此 , 对 于 任意 给 定 的 rz， 后 验 概率 密度 是 关于 6 对 称 的 函数 ， 这 说 明 6 和 条 件 均 值 
E[6|X = z] 是 相等 的 , 只 要 E[elIX = z] 有 限 , 就 有 


Ele|X] = 5 十 (Xx — 5). 
由 于 E[elX] 是 X 的 线性 函数 , 因而 也 是 线性 最 小 均 方 估计 量 . 


@ 这 说 明 6 是 9 的 最 大 后 验 概率 估计 . 一 译 者 注 
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21.* 基于 两 个 观测 的 线性 最 小 均 方 估计 . 考虑 已 知 均值 和 方差 的 3 个 随机 变量 6,X 和 YY. 
假设 var(X) > 0,var(y) > 0 且 |p(X,Y 了 )| 冯 1 给 出 基于 X 和 Y 的 8 的 线性 最 小 均 
方 估计 . 
解 ” 考 虑 形式 为 @ = aX + bY +c 的 线性 估计 量 , 选择 a, b,c 使 得 均 方 误差 E[(8 一 
aX -bY - o)?] 达到 最 小 . 假设 a,5 已 经 选 定 . 不 难 验 证 ， 


c= EI] - aE[X] — bE[Y]. 
使 E[(6 -aX 一 bY -oj?] 达到 最 小 . 接 下 来 的 问题 就 变 为 选择 ob 使 下 式 达到 最 小 
E[((e ~ EI©]) — a(X — E[X]) ~ b(Y — EIYD)']. 
将 上 式 展开 , 得 到 
var(©) + a2var(X) + bvar(Y) — 2acov(©, X) — 2bcov(©,Y) + 2abcov(X,Y). 


假设 X,Y 是 不 相关 的 , 则 有 cov(X,Y) = 0. 将 均 方 误差 的 表达 式 分 别 对 a 和 求 
导 , 令 导数 等 于 0 得 到 


_ cov(B,X) b= cov(OY’) 


varlX) ”var(Y) 
因此 , 线性 最 小 均 方 估 计量 是 
A cov(O, X) cov(O,Y) vv 
日 = 了 E[IG] 十 TAR (~ 一 也 [X]) 十 wz) (Y — E[Y]). 


如 果 X,Y 是 相关 的 , 同样 对 a,b 求 偏 导数 , 令 式 子 为 0. 得 到 一 组 两 个 关于 wb 的 

线性 方程 , 解 得 
var(Y )cov(©, X) — cov(, Y )cov(X,Y) 

varX)var(Y) — coviX,Y) 
_ var(X)cov(8,Y) ~ cov(8, X)cov(X,Y) 
var(X)var(Y) — cov2(X,Y) 
注意 , 条 件 |p(X,Y)| 闫 1 可 保证 上 面 两 式 的 分 母 都 不 为 0. 
基于 多 观测 的 线性 最 小 均 方 估计 . 设 © 是 均值 为 /方差 为 ci 的 随机 变量 , X1,…… ,Xnr 
是 具有 以 下 形式 的 多 个 观测 值 


b 


基 


22. 


Xi= 9+ Wi, 
其 中 观测 误差 Wi 是 均值 为 0 方差 为 o? 的 随机 变量 , 并 且 假 设 6, Wi,… ,Wn 是 各 不 
相关 的 . 通过 取 遍 a1,.… ,an,b 使 得 下 面 函数 取 到 最 小 值 
(al … ,an;,b) = 3E[(© — a1X1 一 … 一 anXn — b)’), 
指出 基于 观测 值 X1,… ,Xn 的 © 的 线性 最 小 均 方 估计 量 是 


HA/a3 十 Di Xi/o? 


0 Fr 1 
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23.” 


解 下 面 将 说 明 取得 最 小 值 时 的 a1,.… ,a b 是 
»*_ J/o8 *_ 1/o? 
, "Bom SFrio jh 
为 此 , 只 要 说 明 dj， ,a2, 5" 是 满足 关于 a1,.…… ,ob 的 偏 导数 等 于 0 的 系数 即 可 
(对 于 非 负 二 次 函数 h 导数 取信 为 0 的 点 即 为 最 小 位) 对 有 求 导 得 


,Nn. 


oh 玉 < 水 开矿 
配 ott -al( 2 -1)et Dom | 
Oh CR 二 
Sa; ote =mlx( (Pe 一 er Dew+, )| 
根据 6*,a? 的 表达 式 可 知 
ye -1=-2. 
利用 这 个 等 式 以 及 事实 
E[8] = 上 E[Wi] = 0， 
得 到 
Oh 


bp” 二 站 * 
Bb ae. = s|( 一 F)9+ e+ | =0 
再 利用 这 些 等 式 
BILE 一 6)]= 了 BEI(e -p+Wit+n(h— 90) = -co3， 
E[XiWi] = 了 II(e + Wi)Wi] = 0o2， 对 所 有 i 
ELX;Wi] = BE[(© + Wj;)Wi] = 0， 对 所 有 i 六 7 


Oh 
Dai Jar ,bw 


=m|x((-E)e+Daw ts) 
= [x (we- 9) 一 | 


2 2 
* 

三 一 00 一 十 Qi0i 

KH 


=0, 


其 中 最 后 一 个 等 式 成 立 是 由 于 *,a*+ 的 定义 . 
最 小 均 方 估计 的 性 质 . 设 @ 和 X 是 两 个 具有 正方 差 的 随机 变量 . 令 6i 是 9 基于 X 
的 线性 最 小 均 方 估计 量 , Br = @r - 6 是 相应 误差. 同样 地 , 令 日 是 9 基于 X 的 最 小 
均 方 估计 量 E[6@|X], 6= 日 - e 是 相应 误差 . 
(a) 证 明 估计 误差 6 满足 

EIBOr] = 0. 
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(b) 证 明 估 计 误 差 @z 和 观测 X 不 相关 . 
(c) 证 明 8 的 方差 可 以 分 解 为 


var(©) = var(©) + var(©L). 


(d) 证 明 最 小 均 方 估计 的 估计 误差 @ 与 观测 X 的 任何 函数 h(X) 不 相关 . 

(e) 证 明 日 未 必 与 久 独立. 

(f) 证 明 线性 最 小 均 方 估计 误差 6z 未 必 与 观测 XX 的 所 有 函数 h(X) 都 不 相关 , 且 
E[SL|X = z] 对 于 所 有 X 未 必 等 于 0. 

解 (a) 依 线性 最 小 均 方 估计 的 公式 


er = Ele]+ Sr — E[X]). 


两 边 取 期 望 得 到 EI[G@r] = E[6], 或 EI@r] = 0. 


(b) 利用 @z 的 公式 得 到 
E[(Or ~ 9)X] =E [(sel + x 一 EUD) ) 和 一 ex 


=E [steix + Doe XE[X]) — ex| 


_cov(8, X)E[X’”] cov(®, XE[X])? 
oF o2 


=cov(@, X) ( 弛 1 - EB - 1) 


2 
v x 
=cov(©, 0 (号 1) 
=0. 
由 于 (a) 中 的 事实 E[6@z] = 0, 说 明 cov(@r,X) = EI@rX] - El6r]EEX] = 0 
(BIG@rzX] = 0, 这 刚刚 证 得 ), 即 估计 误差 @z 和 观测 成 不 相关 . 


(c) 由 于 cov(@r,X) = 0, 而 6r 又 是 X 的 一 个 线性 函数 , 于 是 有 cov(6@r,6@r) = 0. 
因此 ， 


一 (EI@X] - ELIO]E[X]) 


var(©) =var(@r — OL) = var(@r) 二 var(—©L) + 2cov (OL, -er) 
=var(OL) + var(OL) — 2cov(OL, OL) = var(@L) + var(©L). 
(d) 这 是 由 于 E[S] = 0 以 及 

EIOh(X)] =E[L(E[O|X] — ©)h(X)] 
=E[E[©|X]h(X)] — EIOh(X)] 
=E[E[Oh(X)|X]] — EIOh(X)] 
=E[Oh(X)] — EILOh(X)] 
一 0. 
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24. 


¥ 


(e) 此 处 举 出 一 个 反例 : 设 @ 和 X 是 离散 随机 变量 具有 联合 分 布 


1/3, 车 (0, x) = (0,0)， (1, 1), (—1, 1), 
0， ”其 他 . 


在 这 个 例子 中 , X = 19|, 这 样 X 和 6 不 相互 独立 . 注意 到 对 于 任意 可 能 的 取 值 z 
有 E[B|X = x] = 0, 因而 E[8|X] = 0. 所 以 有 6 = -6. 由 于 多 和 eB 不 相互 独 
立 , X 和 日 也 不 相互 独立 . 

(f) 8@ 和 XX 是 离散 随机 变量 具有 联合 分 布 列 


pe,x(0, 7) = | 


1/3， 若 (0, x) = (0,0), (1,1), (1, 一 1), 

0， ”其 他 . 

这 个 例子 中 , © = |X|. 注意 到 E[X] = 0 和 EI@X] = 0, 所 以 X 和 9 是 不 相关 的 . 依 线 
性 最 小 均 方 估计 的 定义 ,i = E[e] = 2/3, 6@z = (2/3) -6 = (2/3) |X| 与 XX 不 独立 . 
进一步 有 E[6i|X = z] = (2/3) 一 |X|, 这 依赖 于 xz = 0 或 |z| = 1 取 值 为 2/3 和 一 1/3. 
基于 多 观测 的 线性 最 小 均 方 估计 的 性 质 . 令 ©,X1,…… , X, 是 给 定 方差 和 协 方差 的 随机 
变量 . 6r 是 日 的 基于 Xi,… , Xn 的 线性 最 小 均 方 估计 量 , Br = 6B _ 9 是 相应 误 
差 . 证 明 E[©z] = 0, 且 对 每 个 i,6r 和 X; 不 相关 . 

解 先 证 明 对 于 所 有  EI[B@r Xi] = 0. 考虑 一 个 新 的 线性 估计 量 @r + aXi, 其 中 a 为 
一 个 标量 参数 . 由 于 9r 是 线性 最 小 均 方 估计 量 , 它 的 均 方 误差 EI(@x ~ 6)?] 不 会 超过 
新 估计 量 的 均 方 误差 h(a) = E[(@r + ax - 6)?]. 因此 , 函数 h(a) 在 a = 0 的 时 候 取 
到 最 小 值 , 即 (dh/da)(0) = 0. 注意 到 


pe,x(0, 7) = | 


h(a) = E[(Oz + axXi)’] = EIE2] + aE[OL Xi] + oa?ELX2]. 


(dh/da)(0) =0 和 EE[SLX;] = 0 是 等 价 的 . 
现在 来 重复 上 面 的 论证 , 但 是 用 常数 1 来 代替 随机 变量 X;. 经 过 相同 的 步 又 , 得 到 
E[I@z] = 0. 最 后 注意 ， 


cov(6r, Xi) = EIOL Xi] — EIOLIE[X:] =0—0. EL =0 


所 以 Bz 和 X; 是 不 相关 的 . 
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在 第 8 章 , 我 们 将 未 知 参数 看 成 随机 变量 , 利用 贝 叶 斯 方法 进行 统计 推断 . 我 
们 所 处 理 的 所 有 例子 都 是 单一 的 完全 确定 的 概率 模型 , 并 能 够 利用 贝 叶 斯 准则 对 它 
们 进行 推导 和 计算 . 

相 比 之 下 , 本 章 采 用 一 种 与 之 完全 不 同 的 原理 : 认为 未 知 参数 9 是 确定 的 ( 非 
随机 ) 而 取 值 未 知 . 观测 X 是 随机 的 , 根据 9 取 值 的 不 同 , 服从 px (zx; 9)( 若 XX 是 高 
散 的 ) 或 fx(z; 扑 (车 六 是 连续 的 ). 因此 , 我 们 将 同时 处 理 多 重 候 选 模型 ,每 个 模型 
对 应 9 的 一 个 可 能 的 取 值 , 而 不 是 仅仅 处 理 单一 的 概率 模型 . 在 这 里 , 一 个 “好 ”的 
假设 检验 或 者 估计 过 程 是 指 在 每 个 候选 模型 为 真 模型 时 , 都 拥有 某 些 理想 的 性 质 . 
某 些 时 候 , 我 们 也 会 采用 保守 的 观点 : 一 个 过 程 不 会 被 认为 达到 我 们 的 要 求 , 除非 
它 在 9 取 到 最 坏 值 的 情况 下 也 能 保持 好 的 效果 . 


r----------1 


px(';0) z ; ”点 估计 ， ，! 
观察 过 程 - ' ”选择 假设 ， ! 
“ 1 -区 间 全 计 等 ， 


图 9.1 ”经 典 推断 模型 的 总 结 . 对 于 9 的 每 个 取 值 , 有 分 布 px (z; 9). 利用 观测 和 的 取 值 x 
计算 点 估计 , 或 者 选择 一 个 假设 , 等 等 


总 的 来 说 ,在 我 们 的 记号 中 , 概率 和 期 望都 标明 了 相应 的 9 的 值 . 比如 , 记 
Eo[h(X)] 为 随机 变量 h(X) 的 期 望 , 不 过 在 求 期 望 的 过 程 中 , X 的 分 布 参数 为 0. 
类 似 地 , 用 记号 Po(A4) 表示 一 个 事件 4 的 概率 . 需要 注意 的 是 , 这 里 指示 Pe(4) 对 
于 9 的 依赖 性 仅仅 是 函数 上 的 依赖 性 ,而 不 像 贝 叶 斯 分 析 中 那样 , 9 的 出 现 意味 着 
相应 的 概率 是 条 件 概率 ， 

本 章 前 面 两 节 将 介绍 参数 估计 , 重点 是 最 大 似 然 估 计 和 线性 回归 方法 , 经 常 涉 
及 的 是 独立 同 分 布 的 观测 值 . 这 里 的 问题 和 第 8 章 讨论 贝 叶 斯 估计 量 是 类 似 的 . 我 
们 的 目标 是 找到 那些 具有 优良 性 能 的 估计 量 (观测 值 的 函数 ). 但 是 , 选取 的 准则 会 
有 所 不 同 , 因为 它们 必须 面 对 未 知 参数 的 所 有 可 能 取 值 . 比如 说 , 我 们 的 选取 准则 
是 要 求 估 计 误 差 的 期 望 为 0( 对 一 切 9 的 值 都 成 立 ), 或 者 对 于 未 知 参数 的 所 有 可 能 
取 值 , 估计 误差 在 很 大 的 概率 下 很 小 . 

第 3 节 将 讨论 简单 假设 检验 的 问题 . 这 里 提 及 的 方法 和 第 8 章 中 ( 贝 叶 斯 ) 最 
大 后 验 概率 方法 类 似 . 特别 地 , 我 们 计算 每 个 假设 成 立 的 似 然 程度 基于 已 经 观测 到 
的 数据 , 并 通过 两 个 假设 的 似 然 程度 的 比值 的 某 种 门限 值 来 选择 假设 . 

最 后 一 节 将 讨论 不 同类 型 的 假设 检验 问题 . 举 一 个 例子 , 假设 投掷 一 枚 硬币 m” 
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次 , 观测 到 由 投掷 结果 (正面 或 反面 ) 组 成 的 一 个 序列 , 我 们 想 知 道 这 个 硬币 是 否 
均匀 .需要 检验 的 主要 假设 是 p = 1/2 是 否 成 立 , 其 中 p 是 正面 朝 上 的 未 知 概率 . 
备 择 假设 p 关 1/2 是 复合 的 , 因为 它 由 很 多 甚至 可 能 是 无 限 多 的 子 假设 组 成 (比如 
p == 0.1,p = 0.499 9 等 ). 很 明显 , 在 观测 值 个 数 不 是 很 大 的 情况 下 , 没有 一 种 可 靠 
的 方法 能 够 区 分 p = 0.5 还 是 p = 0.499 9. 这 类 问题 通常 利用 显著 性 检验 的 方法 来 
解决 有 人 会 问 : 观测 数据 和 假设 p = 0.5 是 否 一 致 ? 粗糙 地 说 , 在 某 假设 基础 上 ， 
如 果 观 测 到 的 数据 看 起 来 不 像 是 在 这 个 假设 之 下 “偶然 ”产生 的 , 那么 该 假设 将 被 
拒绝 . 


本 章 的 主要 术语 、 问 题 和 方法 
。 经 典 统计 将 未 知 参数 看 作 是 待 确定 的 常数 . 对 于 未 知 参数 的 每 个 可 能 取 什 
都 假设 一 个 单独 的 概率 模型 . 
。 在 参数 估计 中 , 希望 找到 在 未 知 参数 取 任 何 可 能 值 的 情况 下 都 基本 正确 的 
估计 . 
。 在 假设 检验 中 , 未 知 参 数 对 应 于 对 立 假设 取 有 限 的 m(m > 2) 个 值 . 想 要 
选择 一 个 假设 , 使 得 在 任何 可 能 的 假设 下 错误 的 概率 最 小 . 
。 在 显著 性 检验 中 , 希望 接受 或 者 拒绝 一 个 简单 的 假设 , 保持 错误 拒绝 的 概 
率 适当 的 小 . 
。 本 章 主要 的 经 典 推断 方法 . 
(a) 最 大 似 然 估计 : 选择 参数 使 得 被 观测 到 的 数据 “最 有 可 能 ” 出现, 比如 
使 获得 当前 数据 的 概率 最 大 ( 见 9.1 节 ). 
(b) 线性 回归 : 在 这 样 的 意义 下 找 出 一 组 成 对 数据 之 间 最 合适 的 线性 关系 : 
这 种 线性 关系 使 得 模型 与 真实 数据 之 间 差 值 的 平方 和 最 小 ( 见 9.2 节 ). 
(oc) 似 然 比 检验 : 给 定 两 个 假设 , 根据 它们 发 生 “ 可 能 性 ” 的 比值 选择 其 一 ， 
使 得 犯错 的 概率 适当 小 ( 见 9.3 节 ). 
(d) 显著 性 检验 : 给 定 一 个 假设 , 当 且 仅 当 观测 数据 落 在 某 个 拒绝 域 的 时 
修 拒 绝 该 假设 . 特别 设计 的 拒绝 域 使 得 错误 拒绝 的 概率 低 于 某 个 给 定 
阅 值 ( 见 9.4 节 ). 


9.1 经 典 参数 估计 


本 节 利 用 经 典 的 方法 讨论 参数 估计 问题 , 所 谓 经 典 的 方法 就 是 将 参数 9 看 作 未 
知 常数 , 而 不 是 随机 变量 . 先 介绍 一 些 定义 和 估计 量 的 相关 性 质 ， 然 后 讨论 最 大 似 
然 佑 计量 , 它 可 以 看 作 是 经 典 统计 中 与 贝 叶 斯 最 大 后 验 概率 估计 量 相对 应 的 部 分 . 
最 后 关注 简单 但 是 重要 的 估计 未 知 均值 的 例子 , 如 果 可 能 的 话 估计 未 知 的 方差 . 本 
章 还 讨论 相关 的 问题 , 包括 建立 一 个 有 很 大 概率 包含 未 知 参数 的 区 间 (一 个 “置信 
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区 间 ”). 这 里 用 到 的 很 重要 的 方法 是 大 数 定律 和 中 心 极限 定理 (参见 第 5 章 ). 
9.1.1 ”估计 量 的 性 质 


给 定 观 测 X = (X1,.… ,Xn), 估计 量 是 指 形式 为 6 = g(X) 的 随机 变量 . 注意 ， 
由 于 XX 的 分 布依 赖 于 9, 因而 自 的 分 布 也 一 样 . 估计 量 6 的 取 值 称 为 估计 值 . 

有 时 候 , 尤其 是 当 我 们 对 观测 数目 n 起 的 作用 感 兴趣 时 , 用 @。 表示 一 个 估计 
量 . 当然 将 和 ,, 看 作 是 一 系列 估计 量 (分 别 对 应 n 的 不 同 取 值 ) 也 是 合适 的 . 按照 
一 般 的 定义 , 6。 的 均值 和 方差 记 为 Ee[6@,] 和 vare(n). Eo[@n] 和 vare(6n) 都 是 
9 的 数值 函数 , 但 为 简单 起 见 , 情况 清楚 的 时 候 就 不 说 明 这 种 依赖 性 了 . 

下 面 介绍 和 估计 量 的 各 种 性 质 相关 的 一 些 术 语 . 


| 估计 量 的 相关 术语 

,是 未 知 参数 9 的 一 个 估计 量 , 也 即 关 于 m 个 的 观测 X1，… ,Xn( 服 从 依 
赖 参数 8 的 分 布 ) 的 一 个 函数 ， 

。 估 计 误 差 , 记 为 6 定义 为 6. = 6n 一 0. 

。 估 计量 的 偏差 , 记 为 bg(6n), 是 估计 误差 的 期 望 值 : 


bs(@) = EelOn] — 4. 


。@。 的 期 望 值 、 方 差 和 偏差 都 依赖 于 96， 而 估计 误差 同时 还 依赖 于 观测 
党 1 ,Xn. 

。 称 6 无 偏 , 若 EelG@,] = 9 对 于 0 所 有 可 能 的 取 值 都 成 立 . 

。 称 6. 渐 近 无 偏 , 若 limn_ ,co Eel] = 9 对 于 9 所 有 可 能 的 取 值 都 成 立 ， 

。 称 @。 为 9 的 相合 估计 序列 , 如 果 对 于 参数 所 有 可 能 的 真 值 , 序列 6n 依 
概率 收敛 到 0. | 


我 们 不 可 能 指望 作为 随机 观测 的 函数 (估计 量 ) 正好 和 未 知 参数 真 值 9 相等 . 
因此 , 估计 误差 一 般 非 零 . 另 一 方面 , 对 于 6 所 有 可 能 的 取 值 , 如 果 平 均 估 计 误 差 是 
零 , 则 得 到 一 个 无 偏 的 估计 量 , 这 是 我 们 想 要 的 性 质 . 渐 近 无 偏 估计 只 需要 随 着 观 
测 数目 ”的 增加 , 估计 量变 得 无 偏 即 可 , 这 在 n 比较 大 的 情况 下 也 是 所 乐 见 的 . 

除了 偏差 be(6.), 我 们 往往 对 估计 误差 的 大 小 感 兴趣 . 均 方 误差 Eo[62] 可 以 
捕捉 到 这 一 信息 . 下 面 的 公式 将 均 方 误差 、 偏 差 和 6 的 方差 联系 在 一 起 :” 


Ee[O2] = bp3 (On,) + vare(O»,). 


Oz 这 是 公式 ELX2] = (E[X])? 十 var(X) 的 应 用 , 其 中 X = 6 而 期 望 与 相应 于 9 的 分 布 有 关 . 我 们 
也 利用 了 事实 Eo[@n] = be(@n) 和 varg (Sn) = vare (Sn 一 0) = varg (On ). 
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这 个 公式 很 重要 , 因为 在 很 多 统计 问题 中 都 存在 等 式 右边 两 项 的 平衡 . 方差 的 减少 
总 是 伴随 着 偏差 的 增 大 . 当然 , 一 个 好 的 估计 量 会 让 两 项 的 取 值 都 比较 小 . 

下 面 将 讨论 一 些 具体 的 估计 方法 , 首先 是 最 大 似 然 估计 . 这 是 一 种 适用 范围 较 
广 的 估计 方法 , 与 之 前 贝 叶 斯 推断 中 的 最 大 后 验 概率 估计 有 很 多 相似 之 处 . 然后 我 
们 会 考虑 简单 但 是 重要 的 估计 随机 变量 均值 和 方差 的 例子 . 这 将 和 第 5 章 我 们 讨 
论 的 大 数 定律 有 一 些 联系 . 


9.1.2 ”最 大 似 然 估 计 
设 观 测 向 量 和 = (Xi,… ,X。) 的 联合 分 布 列 为 px (zx;0) = px (z1,.… ,zn;0)(0 


可 为 向 量 或 数量 ), 其 中 z = (zx1,… ,zn) 为 X 的 观察 值 . 那么 , 最 大 似 然 估计 是 使 
(9 的 ) 数值 函数 px (zx1,… ,zn;0) 达到 最 大 的 参数 值 ( 见 图 9.2): 


0 = arg max px (TZ1, ,Ln; 0). 


当 XX 为 连续 型 随机 变量 时 , 可 将 同样 的 方法 用 于 联合 概率 密度 函数 fx (zx; 9)( 取 代 
px(z;9)), 即 


0 = arg mgx fx (71， ,Tn;0). 


称 px(z; 9)(fx(z;0), 若 X 连续 型 随机 变量 ) 为 似 然 函 数 ， 


9.2 ”最 大 似 然 估计 的 说 明 : 假设 X 是 离散 的 , 9 在 有 限 集 {91,… ,9%} 中 取 值 . 给 定 观测 
值 XX= z, 对 于 每 个 i 可 计算 得 到 似 然 函 数 px (x; 0;) 的 值 , 从 而 可 以 选 出 使 px (z; 9) 
最 大 的 9 的 取 值 


很 多 应 用 中 都 假设 观测 X; 独立 , 从 而 对 于 每 个 i,X; 是 离散 的 随机 变量 , 似 然 
函数 的 形式 为 


DXx(Z1， 的 ;Tn; 0) 一 I px (zi;0). 
i=1 


在 这 种 情况 下 , 为 了 分 析 和 计算 的 方便 可 让 其 对 数 达到 最 大 , 下 面 的 式 子 称 为 对 数 
似 然 函 数 ， 


nn nn 
In px(z ,2n;0) =In [lox.(zi;0) = YIn px, (zi;0). 
i=1 i=1 
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当 X 为 连续 型 随机 变量 时 , 类 似 地 用 概率 密度 函数 取代 分 布 列 , 取 遍 6 使 得 下 面 
表达 式 值 最 大 


In fx(z1, ,zn;0) =1n TI fx:(2i;0) = mm fx (zi;0). 
i=1 i=1 


此 处 对 于 术语 “ 似 然 ”需要 一 些 的 解释 . 对 于 已 知 X 的 观测 值 >, px(x;9) 不 
是 未 知 参数 等 于 9 的 概率 . 事实 上 , 这 是 当 参 数 取 值 为 6 时, 观测 值 > 可 能 出 现 的 
概率 . 因此 , 为 取 定 9 的 估计 值 时 , 我 们 会 问 这 样 的 问题 : 基于 已 知 的 观测 , 9 取 什 
么 值 可 使 观察 值 最 可 能 出 现 呢 ? 这 就 是 术语 “ 似 然 ” 的 本 意 . 

回忆 在 贝 叶 斯 最 大 后 验 概率 估计 中 , 估计 的 选择 是 使 表达 式 pe(9)pxle(zx|9) 取 
遍 9 达到 最 大 , 其 中 pe(b) 是 包含 一 个 未 知 离散 参数 9 先 验 分 布 列 ， 因 而 若 将 
px(z;6) 看 作 条 件 概率 密度 函数 , 可 将 最 大 似 然 估 计 解 释 为 具有 均匀 先 验 的 最 大 后 
验 概率 估计 . 所 谓 均匀 先 验 分 布 列 是 指 对 于 所 有 6 都 具有 一 样 的 先 验 概率 , 也 即 没 
有 任何 信息 的 先 验 分 布 列 . 同样 地 , 对 于 连续 的 取 值 有 界 的 9, 可 将 最 大 似 然 估计 
解释 为 具有 均匀 先 验 密度 的 最 大 后 验 概率 估计 , 其 均匀 先 验 密度 为 fe(9) = c, v 0. 
例 9.1 ”让 我 们 来 回顾 例 8.2, 朱丽叶 迟到 的 时 间 为 X, 服从 [0,0] 的 均匀 分 布 , 其 中 
9 是 未 知 参数 . 在 那个 例子 中 , 我 们 用 服从 均匀 先 验 概率 分 布 密度 fe(9)([0, 1] 区 间 
上 的 均匀 分 布 ) 的 随机 变量 9 建立 参数 的 模型 , 并 说 明了 最 大 后 验 概率 估计 是 x. 
在 本 节 的 经 典 内 容 中 , 没有 先 验 , 9 被 当 作 常数 , 但 是 最 大 似 然 估计 仍 是 6 = z， 口 
例 9.2 ( 伯 努 利 随 机 变量 的 均值 估计 ) ”现在 我 们 希望 根据 n 次 独立 投 据 的 结果 
X1,… ,Xn(Xi = 1 若 正 面 朝 上 , 反之 X = 0) 来 估计 一 枚 不 均匀 的 硬币 正面 朝 上 
的 概率 9. 这 和 例 8.8 中 贝 叶 斯 的 做 法 类 似 , 假设 了 一 个 均匀 先 验 密度 . 发 现 后 验 概 
率 密度 函数 的 峰值 (最 大 后 验 概率 估计 ) 出 现在 9 = k/n, 其 中 是 观测 到 正面 向 
上 的 次 数 . 从 而 kjn 也 是 9 的 最 大 似 然 估计 , 所 以 最 大 似 然 估 计量 是 


Xi 十 … 十 Xn 
一 二 . 


On, 
估计 量 是 无 偏 的 . 同时 它 具 有 相合 性 , 因为 根据 弱 大 数 定律 , 昌 ,, 依 概 率 收敛 到 0. 
比较 最 大 似 然 估 计量 和 例 8.8 中 用 贝 叶 斯 方法 得 到 的 线性 最 小 均 方 估计 量 是 
很 有 意思 的 . 我 们 说 过 , 给 了 一 个 均匀 先 验 , 后 验 均值 为 (k + 1)/(n 十 2). 因此 , 最 
大 似 然 估计 k/n 与 通过 贝 叶 斯 方法 得 到 的 线性 最 小 均 方 估 计量 相近 却 不 一 样 . 然 
而 当 ”一 co 时 ， 两 个 估计 渐 近 一 致 . 口 
例 9.3 (估计 指数 随机 变量 分 布 中 的 参数 ) ”考虑 顾客 到 达 某 服务 台 的 时 间 问 题 . 
设 第 i 个 顾客 到 达 服 务 台 时 刻 是 . 假设 第 i 个 时 间 间 隔 X; = 五 一 到 -1( 通 常设 
巧 = 0) 服从 未 知 参 数 为 0 的 指数 分 布 , 并 且 随机 变量 Xi,… ,Xh, 是 相互 独立 的 . 
(这 是 第 6 章 学 习 的 泊 松 到 达 模 型 .) 现在 想 用 观测 X1,… , Xn 来 估计 9 的 值 (可 
解释 为 到 达 的 速率 ). 
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相应 的 似 然 函 数 是 
fx(z;0) = I] fx(zi;0) = [0e 
“一 1 i 二 1 


对 数 似 然 函数 是 
ln fx(7x;0) = nln0 — yn, 


其 中 , 
yn 二 》， Ti. 
i=1 


对 0 求 导 得 到 (mn/0) - yn, 令 其 为 零 , 得 到 在 9 > 0 上 使 mn fx(zx;9) 最 大 的 是 
全 = n/yn. 所 得 估计 量 是 

~ 了 加 

6 (3) 


它 是 到 达 间 隔 时 间 样 本 均值 的 倒数 , 可 以 解释 为 经 验 的 到 达 速率 . 
注意 到 由 弱 大 数 定律 , 当 n 一 co 时 ,Yi/n 依 概率 收敛 到 E[Xi] = 1/6. 这 说 明 
6。 依 概率 收敛 到 9, 因而 估计 量 是 相合 的 . 口 
到 目前 为 上 上 , 我 们 都 在 讨论 单个 未 知 参 数 的 情况 . 下 面 的 例子 中 含有 二 维 参数 . 
例 9.4 ( 正 态 随 机 变量 均值 和 方差 的 估计 ) ”考虑 通过 个 观测 Xi,… , 2 来 估 
计 正 态 分 布 的 均值 和 方差 . 参数 向 量 为 9 = (wu). 相应 的 似 然 函数 是 


n 


nn 
1 2 
fx(z; 1 v) 一 fx; (Zi; 1 一 @—(Ti—H) /2v 
II )=1l 


i1 V2 
通过 计算 上 式 可 以 写作 ? 
. 1 ns2 n(mn — 4)2 
其 中 mn 是 随机 变量 


@ 为 核实 之 , 对 于 i= 1,.… ,n， 
(zi ~ 1)? = (zi — mn + mn — 1) = (i — mn)? + mn — 1)? + 2(mi — mn) (mn 一 加， 


对 i 求 和 并 注意 到 


> (ui — mn) mn — p) = (mn 一峰 》 (zi 一 mn) = 0. 
i=1 i=1 
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的 取 值 , s2 是 随机 变量 


的 取 值 . 对 数 似 然 函数 是 
ns2 nmn 一 有 2 
20 2v . 


将 上 式 分 别 对 4 和 w 求 导 , 令 所 得 导数 为 零 , 得 到 估计 值 和 估计 量 ， 
6 一 (mn, 52 )， OA, 一 (CWMn， 52). 


注意 ,Mn 是 样本 均值 , 同时 52 可 以 看 成 “样本 方差 ”. 易 证 , Eo[52] 当 n 增 大 时 
收敛 到 v, 因而 吾 是 渐 近 无 偏 的 . 同样 运用 弱 大 数 定律 可 知 , Mn 和 52 分 别 是 1/ 
和 w 的 相合 估计 量 . 口 

最 大 似 然 估计 有 一 些 明显 的 性 质 ， 比 如 说 , 它 遵 循 不 变 原理 : 如 果 6 是 9 的 
最 大 似 然 估 计 , 那么 对 于 任意 关于 6 一 一 映射 的 函数 h, ¢ = h(0) 的 最 大 似 然 估计 
是 h(6n). 对 于 独立 同 分 布 的 观测 , 在 一 些 适 合 的 假设 条 件 下 , 最 大 似 然 估计 量 是 
相合 的 . 

另 一 个 有 趣 的 性 质 是 当 9 是 标量 参数 的 时 候 , 在 某 些 合适 的 条 件 下 , 最 大 似 然 
估计 量具 有 渐 近 正 态 性 质 . 特别 地 , 可 以 看 见 (6, - 9)/c(6@。) 的 分 布 接近 标准 正 态 
分 布 , 其 中 o2(6。) 是 6。 的 方差 . 因此 , 如 果 我 们 还 能 够 估计 c(6), 就 能 进一步 
得 到 基于 正 态 近 似 的 误差 方差 估计 . 当 9 是 向 量 参数 , 针对 每 个 分 量 可 以 得 到 类 似 
的 结论 . 


最 大 似 然 估计 

。 已 知 随机 向 量 X 二 (Xi,… ,Xn) 的 观察 值 为 x = (z1,… ,zn), 其 联合 分 
布 列 为 px(z;g)( 或 连续 情况 下 的 联合 概率 密度 函数 jx(z; 0)). 

。 最 大 似 然 估计 是 使 得 似 然 函数 px(z;ig)( 或 fx(zx;0)) 达到 最 大 值 时 8 的 取 


ln fx(z;4,v) = -3 ‘ln(27) 一 2 -ln v— 


值 . 
。 关 于 9 一 一 映射 的 函数 h(9) 的 最 大 似 然 估 计 是 nbo), 其 中 斥 是 0 的 最 
大 似 然 估计 . 
。 当 随机 变量 Xi 是 独立 同 分 布 时 , 在 某 些 合适 的 假定 条 件 下 , 最 大 似 然 估 
计 的 每 个 分 量 都 具有 相合 性 且 渐 近 正 态 . 


9.1.3 ”随机 变量 均值 和 方差 的 估计 


现在 来 讨论 一 个 简单 而 重要 的 问题 : 如 何 估 计 一 个 概率 分 布 的 均值 和 方差 . 这 
个 问题 与 之 前 例 9.4 讨论 的 问题 有 些 类 似 , 不 同 的 是 , 此 处 没有 正 态 分 布 的 假设 . 事 
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实 上 , 这 里 展示 的 估计 量 不 需要 用 到 与 px (zx; 0)( 或 fx(z;9), 当 X 为 连续 型 随机 变 
量 时 ) 有 关 的 知识 . 
假设 观测 X1,… ,XX 是 独立 同 分 布 的 , 均值 为 未 知 参数 9. 9 最 自然 的 估计 量 
是 样本 均值 : 
MXit tAXn 
nN 
由 于 Ee[Mn] = Ee[X] = 0, 因而 此 估计 量 是 无 偏 的 . 它 的 均 方 误差 和 方差 相等 , 是 
v/n, 其 中 v 是 Xi 的 方差 . 由 计算 看 出 ，M, 的 均 方 误差 并 不 依赖 于 9. 更 进一步 ， 
由 弱 大 数 定律 , 估计 量 依 概率 收敛 到 9, 因而 是 具有 相合 性 . 
样本 均值 未 必 是 方差 最 小 的 估计 量 . 比如 说 , 考虑 估计 量 合 , = 0, 完全 忽略 观 
测 却 是 零 的 一 个 估计 . 日。 的 方差 是 零 , 但 偏差 be(@,) = -0. 特别 地 , 依赖 9 的 均 
方 误差 为 02. 
下 一 个 例子 将 比较 样本 均值 和 在 8.2 节 特定 假设 下 推导 的 贝 叶 斯 最 大 后 验 概 
率 估计 量 . 
例 9.5 ”假设 观测 Xi,… ,XX 是 正 态 独立 同 分 布 的 , 具有 共同 的 未 知 均值 9 和 已 
知 方差 v. 在 例 8.3 中 应 用 的 是 贝 叶 斯 方法 , 假设 参数 9 服从 正 态 的 先 验 分 布 . 对 
于 9 的 先 验 均值 是 零 的 情况 , 得 到 下 面 的 估计 量 : 
6 -和 十 + 
?十 工 . 
这 个 估计 量 是 有 偏 的 , 因为 Ee[f@,] = n9/(n 填 1) 且 be(6。) = -9/(n + 1). 但 是 
limn.soo be(n) = 0, 所 以 6 是 渐 近 无 偏 的 . 它 的 方差 是 
vn 
(n+ 1)2’ 


它 比 样本 均值 的 方差 wm 略 小 一 些 . 注意 这 个 例子 的 特殊 之 处 , vare (9,) 不 依赖 于 
9. 均 方 误差 等 于 


varg (On,) 一 


02 vn 


Ee[62] = b2(O;,) + vare (0) = mr + tty 


假设 除了 样本 均值 (9 的 估计 量 ) 
Ma = 全 一 一 一 一 "， 


我 们 还 对 方差 v 的 估计 量 感 兴趣 . 一 个 自然 的 选择 是 


a2 1 
52 一 = D(Xi — Mn)’, 


i 二 1 


这 和 基于 正 态 性 假设 的 例 9.4 推导 得 出 的 最 大 似 然 估计 量 一 致 
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根据 事实 
他 
EwlMn] = 0, Egw[X2] = 0 +v, Ec,w) [M2] = 内 十 7 
得 到 
四 1 咒 也 
2] 一 二 本 X2— 2Ms > Xi+nM2 
Ee,w) [Sn] = Ee0%) > 1 > 和 二 mn 4 


i=1 


. 1 
=E(g,w) 上 >》 X? 一 2M2 十 a 
i=] 


1 n 
=Eg,v) 上 >》 X2 一 | 
i=1 


一 多 十 v 一 (0?+=) 


_n—1 


因此 , 52 不 是 v 的 无 偏 估 计量 , 尽管 它 是 渐 近 无 偏 的 . 
通过 适当 的 比例 缩放 可 以 得 到 一 个 方差 的 无 偏 佑 计量 


G2 1 2_ 7 a2 
$2 = rsp Mo = 一 了 吕 
之 前 的 计算 说 明 
Ele [22] = 


因而 $2 是 v 的 一 个 无 偏 估 计量 (对 于 所 有 n). 但 是 , 当 n 很 大 的 时 候 , 52 各 
本 质 上 是 一 样 的 . 


随机 变量 的 均值 和 方差 估计 
观测 值 X1,:… ,Xn 是 独立 同 分 布 的 , 均值 6 和 方差 v 均 未 知 . 
。 样本 均值 
M, = 有 十 … 十 六 
是 9 的 一 个 无 偏 估计 量 , 它 的 均 方 误差 是 v/n. 
。 方差 的 估计 量 有 两 个 
52 = = 2 — Mn)?, $2 = 一 2 一 Mn)2. 
e 当 Xi 服从 正 态 分 布 , 估计 量 52 和 最 大 似 然 估 计量 相等 . 它 有 偏 但 是 渐 近 
无 偏 . 估计 量 52 是 无 偏 的 . 当 n 很 大 的 时 候 , 方差 的 两 个 估计 量 本 质 上 
是 一 致 的 . 
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9.1.4 ”置信 区 间 


考虑 未 知 参数 9 的 一 个 估计 量 6,. 除了 估计 所 得 的 数值 , 我 们 还 想 建 立 一 个 
所 谓 的 置信 区 间 . 粗糙 的 说 , 这 个 区 间 以 某 个 很 高 的 概率 包含 参数 9 的 真 值 . 
为 准确 定义 , 我 们 首先 固定 一 个 希望 达到 的 置信 水 平 1 一 a, 其 中 a 往往 是 个 很 
小 的 数 . 然后 用 一 个 略 小 的 估计 量 6z 和 一 个 略 大 的 估计 量 6+ 代替 点 估计 量 昌 ，， 
于 是 6z < 6+, 且 
Pe(67 < 0 < 0+)>1— oa, 


对 于 6 每 个 可 能 的 取 值 成 立 . 注意 , 与 一 般 估 计量 类 似 , 6 和 6+ 也 是 观测 的 函 
数 , 因而 是 其 分 布依 赖 9 的 随机 变量 . 称 [86,6+] 为 (1 一 a) 置信 区 间 . 

例 9.6 ”假设 观测 X; 是 正 态 独立 同 分 布 的 , 均值 9 未 知 , 方差 v 已 知 . 样本 均值 
估计 量 

1 十 … 十 瑟 n 

是 服从 正 态 分 布 的 , ”均值 为 9, 方差 为 vu/n， 利 用 标准 正 态 分 布 的 概率 分 布 函数 
亚 (z)( 可 从 正 态 分 布 表 中 查 得 ), 有 更 (1.96) = 0.975 = 1 一 a/2 且 得 到 


Pp (入 -9 < 0) = 0.95. 


Vo/n 


On = 


可 以 整理 为 如 下 形式 


Po (e， -196\/ 二 <b<e6n+ L962) = 0.95, 
nn 也 
|e。 一 196V/2， ,+ L969 
Nn VA 


是 95% 置信 区 间 , 分 别 定义 6z 和 6+ 为 bu 一 1.96V 和 全， +1.96V 开 口 

在 之 前 的 例子 中 , 我 们 想 用 这 样 的 表述 来 刻画 一 个 95% 置信 区 间 : 真实 的 参 
数落 在 置信 区 间 内 的 概率 是 95%. 但 是 这 样 的 表述 是 模糊 的 .比如 说 , 假设 得 到 观 
测 值 之 后 得 到 置信 区 间 [2.3, 4.1]. 我 们 不 能 说 9 有 95% 的 概率 落 在 [一 2.3, 4.1]， 
为 这 种 表述 并 不 包含 任何 随机 变量 . 毕竟 , 在 经 典 方法 中 , 6 是 一 个 常数 . 实际 上 ， 
短语 “真实 参数 落 在 置信 区 间 ” 中 的 随机 项 是 置信 区 间 , 而 不 是 真实 参数 . 

下 面 是 一 个 具体 的 解释 , 假设 9 是 固定 的 . 我 们 运用 相同 的 统计 过 程 建立 了 很 
多 个 置信 区 间 . 比如 每 次 获得 ”个 独立 的 观测 并 建立 95% 置信 区 间 . 可 以 预期 有 
95% 的 置信 区 间 将 包含 0. 无 论 9 的 值 是 多 少 , 这 总 是 正确 的 . 


@ 这 里 用 的 是 独立 正 态 随 机 变量 的 和 还 是 正 态 的 重要 事实 , 参见 第 4 章 . 


这 说 明 
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置信 区 间 
。 对 于 一 维 的 未 知 参数 0, 其 置信 区 间 是 一 个 以 很 高 概率 包括 9 的 区 间 , 端 
点 为 6 和 人 +. . 
。e 和 + 是 依赖 于 观测 Xi … ,Xn 的 随机 变量 . 


。 (1 一 Q) 置信 区 间 对 于 9 所 有 可 能 的 取 值 满足 


Po(6z < 0 < OH)21-a. 


通常 情况 下 , 置信 区 间 是 包含 估计 量 6 的 区 间 . 更 进一步 , 在 许多 符合 要 求 
的 置信 区 闻 中 , 我 们 喜欢 长 度 最 短 的 . 但 是 , 这 并 不 容易 找到 , 因为 误差 86， 一 9 的 
分 布 或 者 是 未 知 的 , 或 者 是 依赖 于 9 的 . 所 幸 在 很 多 重要 的 模型 中 , 6,, - 0 的 分 布 
是 浙 近 正 态 无 偏 的 . 这 就 是 说 随机 变量 
On—0 


vare (On) 
的 概率 分 布 函 数 在 ”增加 的 时 候 趋 于 标准 正 态 概率 分 布 函数 ( 对 于 9 所 有 可 能 的 
取 值 ). 现在 我 们 可 以 像 例 9.6 一 样 , 导出 近似 的 置信 区 间 . 
9.1.5 ”基于 方差 近似 估计 量 的 置信 区 间 


假设 观测 X; 是 正 态 独立 同 分 布 的 , 均值 9 和 方差 v 均 未 知 . 用 样本 均值 
_ Xn 
Nn 


en 
来 估计 9, 用 之 前 介绍 的 无 偏 估计 晤 


、 1 之 
52 一 nl1 2 一 On)? 
来 估计 v 特别 地 , 用 $2/n 来 估计 样本 均值 的 方差 v/n. 给 定 a, 可 以 用 上 述 估计 
和 中 心 极限 定理 构造 一 个 (近似 )1 一 a 置信 区 间 , 即 
、 G。 a 
区 一 yh On 十 :| » 
其 中 z 由 关系 式 


和 正 态 分 布 表 得 到 , $ 是 32 的 正平 方 根 . 例如 , 若 a = 0.05, 利用 事实 8(1.96) = 
0.975 = 1 一 a/2( 从 正 态 分 布 表 中 可 知 ) 得 到 近似 95% 置信 区 间 的 形式 为 


e. — 1.96~2, © + 1.96—2|. 
| J On+ w 和 | 
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注意 在 这 种 方法 中 , 两 个 不 同 的 近似 起 了 作用 . 首先 , 将 @,。 看 成 正 态 的 随机 
变量 ; 其 次 , 用 估计 $2/n 代替 了 6。 的 真实 方差 v/n. 

即使 在 X; 是 正 态 随机 变量 的 特殊 情况 下 , 上 面 建立 的 置信 区 间 仍 然 是 近似 的 . 
这 是 因为 22 只 是 真实 方差 v 的 近似 估计 , 而 随机 变量 


六 ~ ve 一 全 
Dn 

不 是 正 态 的 . 但 是 , 对 于 正 态 的 X;, T。 的 概率 密度 函数 不 依赖 于 9 和 v, 可 以 明确 
地 计算 出 来 . 称 TZ 的 分 布 为 自由 度 为 n 一 1 的 t 分 布 .? 类 似 标准 正 态 分 布 的 概率 
密度 函数 , 它 是 对 称 钟 形 的 , 但 是 散布 更 广 , 尾部 更 重 ( 见 图 9.3). 感 兴趣 的 各 种 区 
间 的 概率 可 以 通过 + 分 布 表 查 到 , t 分 布 表 类 似 于 正 态 分 布 表 . 因此 , 当 X;( 近 似 ) 正 
态 并 且 n 相对 较 小 的 时 候 , 下 面 给 出 的 是 更 加 精确 的 置信 区 间 : 

全 On 全 5, 

9n 一 z 所 en 二 2 万 3 
其 中 z 由 关系 式 


oa 
Vn_1(2) 二 1 一 7， 


得 到 , -li(z) 是 自由 度 为 n 一 1 的 t 分 布 的 概率 分 布 函 数 , z 的 值 可 以 通过 查 表 得 
到 . 这 些 表 可 以 在 很 多 地 方 找到 , 下 面 给 出 了 一 个 简略 的 版 本 . 


0.4 
0.35 


5 -4 -3 -2 -1 0 1 2 3 4 6 


9.3 ”自由 度 为 n 一 1 的 t 分 布 的 概率 密度 函数 与 标准 正 态 概率 密度 函数 的 比较 


QD t 分 布 具有 很 有 意思 的 性 质 并 且 有 确定 的 表达 式 , 但 是 精确 的 公式 对 达到 我 们 的 目的 并 不 重要 . 有 
时 候 它 又 被 称 作 “ 学 生 分 布 ”". 这 是 1908 年 由 受 雇 于 都 柏林 酿酒 厂 的 威廉 . 高 赛 特 发 表 的 ， 他 假 
针 学 生 的 名 义 写 了 这 篇 文章 ,因为 以 他 本 人 的 名 字 发 表 文章 在 当时 是 被 禁止 的 ， 高 赛 特 致力 于 挑 
选 产量 最 好 的 大 麦 , 但 只 有 较 小 的 样本 数量 . 
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另 一 方面 , 当 n 比较 大 (如 n > 50) 的 时 候 , + 分 布 和 正 态 分 布 非常 接近 , 因此 


可 以 直接 用 正 态 分 布 表 ( 表 9.1). 

表 9.1 分 布 表 : 给 定 自由 度 为 n 一 1 时 t 分 布 的 概率 分 布 函 数 更 nm 1(z). 
0.100 0.050 0.025 0.010 0.005 0.001 
1 3.078 6.314 12.71 31.82 63.66 318.3 
2 1.886 2.920 4.303 6.965 9.925 22.33 
3 1.638 2.353 3.182 4.541 5.841 10.21 
4 1.533 2.132 2.776 3.747 4.604 7.173 
5 1.476 2.015 2.571 3.365 4.032 5.893 
6 1.440 1.943 2.447 3.143 3.707 5.208 
了 1.415 1.895 2.365 2.998 3.499 4.785 
8 1.397 1.860 2.306 2.896 3.355 4.501 
9 1.383 1.833 2.262 2.821 3.250 4.297 
10 1.372 1.812 2.228 2.764 3.169 4.144 
11 1.363 1.796 2.201 2.718 3.106 4.025 
12 1.356 1.782 2.179 2.681 3.055 3.930 
13 1.350 1.771 2.160 2.650 3.012 3.852 
14 1.345 1.761 2.145 2.624 2.977 3.787 
15 1.341 1.753 2.131 2.602 2.947 3.733 
20 1.325 1.725 2.086 2.528 2.845 3.552 
30 1.310 1.697 2.042 2.457 2.750 3.385 
60 1.296 1.671 2.000 2.390 2.660 3.232 
120 1.289 1.658 1.980 2.358 2.617 3.160 
oo 1.282 1.645 1.960 2.326 2.576 3.090 


表 中 左 列 是 自由 度 m 一 1, 顶 行 是 尾部 概率 B, 顶 行 以 下 的 每 行 是 更 m ~ 1(z) 二 1 一 BB 中 zz 的 值 


例 9.7 利用 电子 天 平 得 到 一 个 物体 重量 的 八 次 测量 值 . 测量 值 是 真实 的 重量 加 上 
服从 正 态 分 布 均值 为 零 方 差 未 知 的 随机 误差 . 假设 每 次 观测 直接 的 误差 是 相互 独 


立 的 . 得 到 结果 如 下 : 


0.554 7, 0.540 4, 0.636 4, 0.643 8, 0.491 7, 0.567 4, 0.556 4, 0.606 6. 
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利用 分 布 来 计算 95% 置信 区 间 . 样本 均值 6。 是 0.574 7, 6@, 方差 的 估计 是 


3__1 V(X; ~ On)? = 3.295 2.10-4 
n nn-1) 的 ’ 


因而 $%/Vn = 0.018 2. 根据 t 分 布 表 , 1 一 亚 r(2.365) = 0.025 = a/2, 所 以 


和 


Pp (名 2 < 2305 = 0.95. 


Sn/ Vn 

9 的 95% 置信 区 间 为 

An, — 2.365 2 On 十 2.365 2 = [0.531, 0.618]. 

Vn Vn ， 
与 由 正 态 分 布 表 得 到 的 置信 区 间 
A 5, 人 5 _ 

le 一 1.96- 启 ， On + ro6 加 | = [0.539, 0.610] 

相 比 , 后 者 更 罕 , 也 即 对 于 点 估计 6 = 0.574 7 的 精度 更 持 乐观 的 态度 . 口 


目前 为 止 建立 的 近似 置信 区 间 依 赖 于 未 知 方差 v 的 特殊 估计 量 52. 然而 , 方差 
可 能 有 不 同 的 估计 量 或 近似 . 比如 , 假设 观测 X;,:… ,XX 是 独立 同 分 布 的 伯 努 利 随 
机 变量 , 未 知 均值 9 和 方差 v= b(1 一 0). 除了 总 ,方差 的 另 一 个 近似 是 6 (1 一 
事实 上 , 当 增加 9 依 概率 收敛 到 0, 因此 (1 一 合 ,) 也 收敛 到 方差 v= 6(1 一 09). 
还 有 一 种 可 能 是 观测 到 9(1 -0) < 1/4 对 于 9 e [0, 1] 总 成 立 , 用 1/4 作为 方差 的 保 
守 估计 . 下 面 的 例子 就 说 明了 这 些 选择 . 
例 9.8 (选举 问题 ) ”考虑 5.4 节 例 5.11 的 选举 问题 , 我 们 想 估计 的 是 选民 中 支持 
某 位 候选 人 的 比例 9. 收集 了 nn 个 独立 选民 的 回应 X1,… , XX,, 其 中 将 看 作 伯 
努 利 随机 变量 , 若 第 i 位 选民 支持 则 X; = 1, 否则 为 0. 用 样本 均值 6, 来 估计 0， 
并 用 正 态 逼近 方法 来 建立 置信 区 间 ， 但 正 态 通 近 方法 需要 对 X 的 方差 进行 估计 ， 
而 对 于 方差 的 估计 , 有 不 同 的 方法 . 为 具体 化 , 假设 样本 数 为 n = 1 200 的 选民 中 
有 684 位 支持 候选 人 , 6。= 684/1 200 = 0.57. 

(a) 如 果 用 方差 的 估计 


1 684 \2 684 \? 
= Tj65 (we (- 本 0 5 + (1 200 — 684) (0- 本 2 ) | 
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并 将 @,, 看 作 均 值 9 方差 0.245/1 200 的 正 态 随机 变量 , 则 得 到 95% 置信 区 间 


2 9 .96. V0. .96 . V0.2 
|e. -1 入 8.+1% 入 | -ozr 1.96- V0.245 (57 | 196. V0.245 加 


Vn Vn V1 200 V1 200 
=|[0.542, 0.598]. 
(b) 方差 估计 
0, (1 — On,) = 二 ( 一 5 ) = 0.245. 


其 结果 和 (a) 是 一 样 的 (精确 到 三 位 小 数 ) 所 以 95% 置信 区 间 为 


入 V On{l 一 Qn) 和 V On (1 一 e.) 


3 


还 是 [0.542, 0.598]. 
(c) 利用 方差 的 上 界 1/4 作为 方差 的 估计 , 得 到 的 置信 区 间 是 


、 1.96 . (1/2) 1.96 . (1/2) 
On, — 1.9612, O,, + 1.96 吉 | = [os7 一 ，0.57 十 一 一 = 一 
| Vn 次 V1 200 V1 200 
= [0.542, 0.599], 


比 起 (a) 和 (b) 的 结果 , 仅仅 宽 了 一 点 , 实际 上 和 前 面 的 几乎 一 样 . 

9.4 比较 了 利用 方法 (b) 和 (c) 得 到 的 置信 区 间 , 其 中 固定 6,。 = 0.57, 样本 
数量 在 n = 10 到 n= 1 000 之 间 变 化 . 可 以 看 见 , 当 ”在 几 百 的 时 候 (这 也 是 典型 
的 调查 样本 量 ), 区 别 很 小 . 但 是 需要 注意 , 若 ”的 取 值 很 小 的 时 候 , 两 者 的 差异 是 
十 分 明显 的 . 因此 , 在 ”比较 小 的 时 候 , 需要 特别 小 心 . 口 


的 置信 区 间 
的 置信 区 间 


“10! 102 108 104 


图 9.4 例 9.8 中 方法 (b) 和 (c) 中 的 近似 方法 构造 的 置信 区 间 , 其 中 合 ,, = 0.57 是 固定 的 ， 
样本 数量 在 n= 10 到 ”= 1 000 之 间 变 化 


9.2 线性 回归 405 


9.2 线性 回归 


本 节 讨论 的 问题 是 用 线性 回归 的 方法 对 感 兴趣 的 两 个 或 更 多 个 变量 之 间 的 关 
系 建立 模型 . 这 种 方法 的 一 个 特征 是 : 它 可 以 由 最 小 二 乘法 完成 操作 , 而 不 需要 任 
何 概率 上 的 解释 . 当然 , 线性 回归 也 可 以 在 各 种 概率 框架 之 下 进行 解释 . 

首先 考虑 两 个 变量 的 情况 , 然后 推广 到 多 个 变量 之 间 关 系 的 讨论 . 现在 想 要 对 
感 兴趣 的 两 个 变量 z 和 y 的 关系 建 模 (例如 受 教育 的 年 数 和 收入 ), 为 此 收集 了 一 
些 数 据 (zz %) = 1,… ,n. 例如 zi 是 第 i 个 个 体 受 教育 的 年 数 , y; 是 相应 的 年 收 
入 . 通常 一 个 关于 样本 的 二 维 散 点 图 会 显示 zx; 和 y; 之 间 有 规律 的 、 近 似 线性 的 关 
系 . 于 是 自然 想 建立 如 下 形式 的 线性 模型 


y 00+ O07, 


其 中 6 和 91 是 未 知 的 待 估 参 数 . 
特别 地 , 给 定 参 数 的 估计 名 和 生 , 模型 对 xz; 相应 的 w 的 预测 是 
hi 一 to 十 Oxi. 
一 般 地 , 各 和 已 知 的 y; 的 值 会 有 差异 
| i = Yi hi 
称 为 第 i 个 残 差 . 残 差 小 的 估计 被 认为 是 很 好 地 拟 合 了 数据 . 为 此 , 线性 回归 在 所 
有 % 和 91 中 选择 使 得 残 差 平方 和 


> (全 一 罗 2 一 >》 (人 一 的 一 gzi? 
i=1 


?一 工 


最 小 的 名 和 全 作为 未 知 参数 go 和 91 的 估计 . 图 9.5 作 了 说 明 . 


(%, 衣 残 差 y 一 抽 一 人 i 


图 9.5 ”由 数据 集 {(zxi, yi),i = 1,… ,n} 出 发 , 选择 go 和 1, 使 之 成 为 残 差 y; 一 00 一 01z; 
的 平方 和 最 小 的 估计 , 得 到 模型 y= 名 + 人 zx 
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注意 , 在 实际 问题 中 , 关于 线性 模型 的 假定 未 必 是 正确 的 , 比如 可 能 实际 上 两 
个 变量 之 间 的 关系 是 非 线 性 关系 . 因此 在 实际 工作 中 , 我 们 往往 首先 需要 进行 模型 
的 鉴定 工作 , 就 是 检查 数据 是 否 支 持 线性 模型 的 假设 . 只 有 经 过 鉴定 , 并 确认 我 们 
所 处 理 的 模型 是 一 个 线性 模型 的 情况 下 , 我 们 才 应 用 最 小 二 乘法 去 找 出 这 个 线性 模 
型 . 

为 推导 线性 回归 估计 名 和 抽 的 公式 , 我 们 发 现 一 旦 给 定数 据 , 残 差 平 方 和 是 
关于 9o 和 0 的 二 次 函数 . 为 求 最 小 值 , 分 别 对 bo 和 01 求 导 , 再 令 导数 为 零 . 经 过 
计算 , 得 到 解 的 简单 显 式 表达 式 , 总 结 如 下 . 


线性 回归 
给 定 n 个 数据 对 (zi,%i), 使 得 残 差 平方 和 最 小 的 估计 是 


a DT BY) 2 ， - 
0 = 二 一 一 一 一 性 一 
Dami 3) 和 


其 中 


1 1 
一 0- 


例 9.9 ”比萨 斜 塔 随 着 时 间 的 推移 倾斜 得 越 来 越 厉害 . 下 表 记 录 了 从 1975~1987 
年 间 塔 上 一 固定 点 的 位 移 (此 点 的 实际 位 置 和 塔 垂 直 的 时 候 该 点 的 位 置 的 距离 ( 米 
数 )) 的 测量 值 . 


年 份 1975 1976 1977 1978 1979 1980 1981 
倾斜 2.964 2 2.964 4 2.965 6 2.966 7 2.967 3 2.968 8 2.969 6 
年 份 1982 1983 1984 1985 1986 1987 


倾斜 2.969 8 2.971 3 2.971 7 2.972 5 2.974 2 2.975 7 
现在 用 线性 回归 来 估计 模型 y = bo + bz 中 的 参数 go。 和 91, 其 中 > 是 年 份 , y 


是 倾斜 值 . 根据 回归 公式 得 到 


二 ~ 7)(y — 、 
6 = Oi “0. _ 
， Di — 2)2 0.000 9，bo =9 -人 3 = 1.123 3， 
其 中 

1 i 

?= 1981, 9 = 4 
估计 的 线性 模型 为 

y = 0.000 9z 十 1.123 3， 
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见 图 9.6. 口 


i 
2.974 | 一 一 估计 的 线性 模型 


.962 
2 1974 1976 1978 1980 1982 1984 1986 1988 


图 9.6 例 9.9 中 比萨 斜 塔 的 倾斜 数据 和 倾斜 度 的 估计 模型 


9.2.1 最 小 二 乘 公 式 的 合理 性 2 


基于 概率 论 的 考虑 , 可 从 不 同 角度 来 说 明 最 小 二 乘 方法 的 合理 性 . 
(a) 最 大 似 然 (线性 模型 , 正 态 了 噪声). 假设 z; 是 给 定 的 数 (不 是 随机 变量 ), y; 
是 随机 变量 Y; 的 实现 , Y; 的 模型 为 


和 三 加 二 0025 十 Ti， i=1,...,n, 


其 中 Wi 是 均值 为 零 , 方差 为 o? 的 正 态 独立 同 分 布 随机 变量 . 因而 六 也 是 独立 的 
正 态 随机 变量 , 均值 go + bizi, 方差 o?. 似 然 函数 的 形式 为 
n 2 
fy(y;0) = II oo{ (Yi — Oo0 — O12i) } . 

似 然 函数 达到 最 大 等 价 于 表达 式 中 的 指数 部 分 达到 最 大 , 即 残 差 平 方 和 最 小 . 因而 ， 
基于 最 小 二 乘法 的 参数 g 和 b 的 线性 回归 估计 可 以 看 作 是 Y 的 期 望 具有 线性 结 
构 的 正 态 模 型 中 参数 9。 和 0 的 最 大 似 然 估计 . 事实 上 , 当 Yi 与 z; 有 这 种 关系 时 ， 
b 和 b 的 基于 最 小 二 乘法 的 估计 是 无 偏 估 计 . 更 进一步 , 估计 的 方差 可 以 用 简便 
的 公式 算得 (参见 本 章 末 习 题 ), 然后 用 9.1 节 中 的 方法 建立 9,。 和 5 的 置信 区 间 . 

(b) 近似 贝 叶 斯 线性 最 小 均 方 估计 (在 可 能 的 非 线性 模型 中 )， 假设 z; 和 yy 
分 别 是 X; 入 的 实现 . 不 同 数 对 (Xi, Yi) 之 间 是 独立 同 分 布 的 , 但 是 Xi,Y; 的 2 
维 联合 分 布 未 知 . 考虑 服从 同一 分 布 的 另 一 独立 数 对 (Xo, 巧 ). 假设 观测 到 Xo 并 


跳 过 这 一 小 节 不 会 影响 课程 的 连续 性 . 


408 第 9 章 经 典 统计 推断 


希望 用 线性 估计 量 多 = 00 上 +bXo 来 估计 Yo. 从 8.4 节 得 知 给 定 Xo, 六 的 线性 最 
小 均 方 估计 量 的 形式 为 


EY + ee (Xo — EIXol]), 
也 即 
01 = 0), bo = E[Yo] — 01.E[Xo]. 


由 于 不 知道 (Xo, 5) 的 分 布 , 用 x 作为 ELXo] 的 估计 , 7 为 EE[Y6] 的 估计 , 55i_1 (zi 一 
F)(y 一 起 /n 为 cov(Xo,Y6) 的 估计 , 21 (zi 一 2)2/n 为 var(Xo) 的 估计 . 将 这 些 估 
计 代 入 9 和 91 的 公式 中 , 发 现 此 处 得 到 的 线性 回归 参数 估计 在 之 前 就 已 经 给 出 
了 . 值得 注意 的 是 这 里 的 论断 不 需要 线性 模型 正确 性 的 假设 . 
(e) 近似 贝 叶 斯 线性 最 小 均 方 估计 (线性 模型 ). 假设 数据 对 (Xi, 于 ) 独立 同 分 
布 , 和 (b) 中 一 样 . 还 有 附加 的 假设 : 数据 对 满足 模型 
¥i = 0 + Xi Wi, 


其 中 Wi 是 独立 同 分 布 的 零 均值 噪声 项 , 与 X; 独立 . 根据 条 件 期 望 的 最 小 均 方 性 
质 , 可 知 E[Y6|Xo] 在 所 有 函数 9 中 使 得 估计 误差 平方 的 期 望 E[(Yo - 9(CXo))?] 最 
小 . 根据 假设 , E[Yo|Xo] = 9 + 9 Xo. 因而 真实 的 参数 go 和 91 使 得 


E[(Yo — 06 — OX0)’] 
达到 最 小 . 由 弱 大 数 定律 , 这 个 表达 式 是 当 n 一 oo 时 


二 0 一 的 一 的 
i=1l1 


的 极限 . 这 说 明 通 过 使 上 述 表 达 式 (用 zx 和 yi 分 别 代 替 Xi 和 ¥Y) 达到 最 小 是 使 
E[(Yo 一 人 % 一 9X0)?]( 真 实 参 数 ) 达到 最 小 的 较 好 的 近似 . 而 使 这 个 表达 式 达 到 最 小 
和 使 残 差 平 方 和 达到 最 小 是 一 样 的 . 
9.2.2 ” 贝 叶 斯 线性 回归 ? 

线性 模型 和 回归 并 不 仅仅 与 经 典 推断 方法 相关 . 下 面 要 说 的 是 在 贝 叶 斯 框架 
中 来 学 习 它 们 . 特别 地 ,将 z1,… ,zs， 当 作 给 定 的 数 ，(y,… ,yn) 是 向 量 Y = 
(五 ，…… ,了 7) 的 观测 值 , 随机 向 量 六 满足 线性 关系 


¥i = 0+ O17i + Wi. 


这 里 , 8@ = (Bo, 81) 是 待 估 参 数 , Wi,… , Wn 是 独立 同 分 布 的 随机 变量 , 均值 为 
零 , 方差 已 知 为 o2. 与 贝 叶 斯 哲学 思想 一 致 , 将 Go。 和 961 建 模 为 随机 变量 . 假设 
6o, 91, Wi1,… ,Wn 相互 独立 , 96o 和 61 均值 为 零 , 方差 分 别 是 ci 和 of 


@ 跳 过 这 一 小 节 不 会 影响 课程 的 连续 性 . 
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基于 80, 81, Wi,… ,Wn 都 是 正 态 随 机 变量 的 假设 , 现在 可 以 利用 最 大 后 验 
概率 方法 来 推导 贝 叶 斯 估计 量 ， 在 所 有 b 和 b 中 让 后 验 概率 密度 函数 fejy (00， 
by … ,yn) 最 大 . 根据 贝 叶 斯 准则 , 后 验 概率 密度 函数 是 ? 


fe(to,01)fyle(yi,.:* ,yn|Oo, 01), 


再 除 以 一 个 和 (00,91) 无 关 的 归 一 化 常数 . 根据 正 态 性 假设 , 表达 式 写 成 


0 如 四 i — 00 — zi0:)? 
人 
其 中 c 是 和 (b,6:) 无关 的 正规 范 化 常数 . 等 价 地 , 在 所 有 9 和 b 中 使 表达 式 
08 好 (yi— 00— zi0:)? 


最 小 . 注意 , 这 和 前 面 经 典 推断 中 期 望 达 到 最 小 的 表达 式 7 (y; -90 - zi01)? 是 
类 似 的 ( 当 oo 和 ci 足够 大 , 可 以 忽略 明 /2c3g 和 好 /2c?, 则 这 两 个 最 小 化 是 一 样 
的 ). 为 求 最 小 值 , 分 别 对 6 和 5 求 导 , 再 令 导数 为 零 . 经 过 计算 , 得 到 如 下 解 . 


贝 叶 斯 线性 估计 

。 模型 : 
(a) 假设 有 线性 关系 = Bo + Bizi 十 Wi. 
(b) 认为 z; 是 已 知 常数 . 
(c) 随机 变量 6o, 81, Wi,… ,Wi 服从 正 态 分 布 且 独 立 . 
(d) 随机 变量 6o 和 1 均值 为 零 , 方差 分 别 是 o2 和 o?. 
(e) 随机 变量 Wi 均值 为 零 , 方差 为 o?. 

。 估计 公式 : | 

给 定数 据 对 (zi,yi), Bo 和 B1 的 极 大 后 验 概率 估计 是 


、 o2 
= 0a2 十 cf Di i— £)? ee 一 动 (gr 
bo = Ps- 3), 


其 中 


QW 注意 这 一 段 用 到 条 件 概率 的 概念 ,因为 是 在 贝 叶 斯 框架 中 . 
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这 里 有 一 些 注释 . 

(a) 如 果 与 cg 和 o? 相 比 , o? 很 大 , 则 得 到 6 = 0, 作用 0. 这 种 情况 是 噪声 很 
大 , 观测 基本 被 完全 忽略 , 因而 估计 和 先 验 均值 (假设 为 零 ) 是 一 样 的 . 

(b) 如 果 让 先 验方 差 o3 和 o? 增加 到 无 穷 大 , 那么 不 存在 任何 关于 Bo 和 81 
的 有 用 的 先 验 信息 . 在 这 种 情况 下 , 极 大 后 验 概率 估计 和 o? 不 相干 , 其 结果 就 和 之 
前 推导 的 经 典 的 线性 回归 公式 一 样 . 

(ce) 为 简单 起 见 假设 z = 0. 估计 981 时 , 观测 7 的 取 值 y; 的 权重 和 其 相关 zx; 
的 值 是 成 比例 的 . 这 可 以 从 直观 上 来 解释 : 当 zx; 很 大 , Y; 中 Bizi; 的 贡献 就 相对 大 ， 
从 而 二 含有 关于 8B; 有 用 的 信息 . 反之 , x; 为 0, 观测 Y 和 61 独立 , 进而 可 以 被 
忽略 . 

(d) 估计 钢 和 评 是 的 线性 函数 , 而 不 是 zi 的 . 然而 要 记得 , x; 是 外 生 的 、 
非 随 机 的 数 , 而 六 是 随机 变量 到 的 观测 值 . 因而 从 8.4 节 定 义 的 意义 上 来 说 , 最 大 
后 验 概率 估计 量 6@。 和 合 ! 是 线性 的 . 再 看 我 们 的 正 态 性 假设 , 这 些 估计 量 同时 又 
是 贝 叶 斯 线性 最 小 均 方 估计 量 和 最 小 均 方 估计 量 (参考 8.4 节 末 尾 的 讨论 ). 


9.2.3 ”多 元 线性 回归 


到 目前 为 止 , 我 们 关于 线性 回归 的 讨论 只 包含 了 一 个 解释 变量 , 记 作 zx, 也 即 
一 元 回归 . 其 目标 是 建立 一 个 用 zi 的 值 来 解释 y; 的 观测 值 的 模型 . 但 是 很 多 情况 
下 , 有 很 多 潜在 的 解释 变量 (比如 我 们 会 考虑 解释 年 收入 的 模型 , 它 是 关于 年 龄 和 
受 教育 年 数 的 函数 ). 这 类 的 模型 称 为 多 元 回归 模型 . 
举例 来 说 , 现在 的 数据 由 三 元 组 的 形式 (zi, yi, zi) 组 成 , 我 们 想 估 计 参 数 0), 模 
型 如 下 
yo+t+Oz+t bz. 


比方 说 , 对 于 随机 样本 中 的 第 i 个 人 , y; 可 以 是 收入 , x; 是 年 龄 , z; 是 受 教育 年 数 . 
在 所 有 的 bo,9; 和 9 中 寻找 使 得 残 差 平方 和 


n 


Dy ~ 00 — O11 — O22i)? 
i=1 
最 小 的 解 . 在 理论 上 , 多 个 解释 变量 的 情况 与 两 个 解释 变量 的 情况 是 没有 本 质 差别 
的 . 回归 估计 6; 的 计算 在 概念 上 和 单个 解释 变量 情形 一 样 , 但 显然 公式 要 复杂 得 
多 . 
一 个 特例 , 假设 z; = x2, 处理 的 模型 变 为 


2 名 00 十 0zZ 十 goz2. 


如 果 能 够 找到 y; 关于 zi 是 二 次 函数 关系 的 解释 , 那么 这 个 模型 是 合适 的 (当然 更 
高 阶 多 项 式 模型 也 是 可 能 的 )、 虽 然 二 次 函数 关系 是 非 线 性 的 , 但 这 个 模型 仍 被 称 
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作 线 性 的 , 因为 未 知 参数 9; 和 观测 的 随机 变量 Y 是 线性 关系 . 推广 之 , 可 以 考虑 
这 种 一 般 形式 的 模型 

y ~ 00+ 0;hy(z). 
通过 取 遍 00,01,.… ,bm 使 得 表达 式 


D>_(yi— 00— 2 0ihs(ri)) 


i=1 


取 值 最 小 即 得 到 参数 的 估计 名 , 负 ，,… ,6 这样 的 最 小 化 问题 的 解 已 经 有 现存 的 
公式 . 它们 都 属于 多 元 线性 回归 的 范畴 . 


9.2.4 ” 非 线 性 回归 


如 果 假 设 的 关于 未 知 参数 的 模型 结构 是 非 线 性 的 , 可 将 线性 回归 方法 将 推广 到 
非 线性 的 情况 . 特别 地 , 假设 变量 > 和 y 关系 如 下 


yS jzZig)， 


其 中 h 是 给 定 的 函数 6 的 非 线性 , 9 是 待 估 参 数 . 对 于 已 知 的 数据 对 (zi, yi),i = 
1,… ,n, 欲 寻找 9 使 得 残 差 平方 和 


nm 


Dy — h(xi;0)) 
i=1 
达到 最 小 . 
与 线性 回归 不 同 , 这 类 最 小 化 问题 并 没有 确定 形式 的 解 . 但 是 解决 实际 问题 时 
有 一 些 相当 有 效 的 计算 方法 . 和 线性 回归 类 似 , 非 线性 最 小 二 乘 估计 源 自 参数 9 的 
最 大 似 然 估计 . 假定 数据 y; 来 自 下 列 的 模型 ， 


Y= h(xi;0) + Wi, 一 1 ,Nn, 


其 中 6 为 未 知 的 回归 模型 的 参数 , Wi 是 独立 同 分 布 的 零 均值 正 态 随机 变量 ， 这 个 
模型 的 似 然 函 数 的 形式 为 


TT_1 i — h(xi; 0))? 
0 {2 }, 


其 中 c2 为 Wi 的 方差 . 似 然 函数 最 大 等 价 于 上 式 中 指数 部 分 最 大 , 也 就 是 使 得 残 
差 平 方 和 最 小 . 这 说 明 在 Y 为 正 态 的 情况 下 , 非 线性 回归 模型 中 参数 9 的 最 小 二 
乘 估计 就 是 参数 6 的 最 大 似 然 估 计 . 
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9.2.5 ”实际 中 的 考虑 


回归 方法 的 应 用 领域 非常 广泛 , 从 工程 到 社会 科学 领域 , 无 不 涉及 . 但 是 应 用 
时 需要 小 心 . 这 里 我 们 讨论 一 些 很 重要 的 需要 牢记 的 问题 , 忽略 了 这 些 事项 , 将 无 
法 通过 回归 分 析 得 到 可 靠 的 结论 . 

(a) 异 方差 性 . 在 涉及 正 态 误差 的 线性 回归 模型 中 , 最 小 二 乘 估计 要 求 模型 中 
误差 项 , 也 即 噪声 项 Wi,i = 1,… ,n 的 方差 相同 . 但 是 , 在 现实 中 , 不 同 数据 对 的 
Wi 的 方差 可 能 有 很 大 差别 . 比如 , Wi 的 方差 可 能 受到 zi 的 严重 影响 (更 具体 一 些 ， 
假设 xz; 是 年 收入 且 y; 是 年 消费 . 很 自然 能 够 预期 富 人 消费 的 方差 远大 于 穷人 消费 
的 方差 ). 在 这 种 情况 下 , 一 些 方 差 较 大 的 噪声 项 将 对 参数 估计 造成 不 恰当 的 影响 . 
一 种 合适 的 补救 办 法 是 使 用 加 权 最 小 二 乘 准 则 并” oi(yi 一 900 - gzi)2, 其 中 对 于 
Wi 的 方差 较 大 的 i, 权重 oi 就 小 一 些 . 

(b) 非 线 性 . 很 多 时 候 , 变量 z 的 取 值 可 以 影响 变量 y 的 取 值 , 但 是 这 种 影响 
可 能 是 非 线 性 的 . 之 前 也 讨论 过 , 选择 合适 的 h, 基于 数据 对 (h(zi),yi) 的 回归 模型 
可 能 更 合适 . 

(c) 多 重 共 线 性 . 假设 现在 用 两 个 解释 变量 > 和 z 来 建 模 预测 另 一 个 变量 y. 
如 果 z 和 z 之 间 本 身 就 有 很 强 的 关系 , 那么 估计 的 过 程 可 能 无 法 可 靠 的 区 分 两 个 
解释 变量 各 自 对 模型 的 影响 . 一 个 极端 的 例子 是 , 假设 y = 2z + 1 是 真实 的 关系 ， 
而 z = 2z 总 是 对 的 . 那么 模型 y = z +1 也 是 正确 的 , 但 是 并 不 存在 一 种 计算 方法 
分 摊 两 个 解释 变量 x 和 z 在 建立 模型 时 对 y 的 贡献 . 

(d) 过 度 拟 合 . 用 大 量 的 解释 变量 和 相应 的 参数 来 建立 多 元 回归 , 其 拟 合 效果 
是 良好 的 , 但 这 种 建立 模型 的 方法 并 非 有 利 , 也 有 可 能 是 没有 用 的 . 举例 来 说 , 假设 
一 个 线性 模型 是 正确 的 , 但 是 我 们 却 用 9 次 多 项 式 来 拟 合 10 个 数据 . 模型 的 数据 
拟 合 效果 肯定 非常 好 , 但 却 是 不 对 的 . 一 个 重要 的 原则 是 , 数据 点 的 数量 应 该 是 待 
估 参 数 个 数 的 5 倍 , 最 好 是 10 售 . 

(e) 因果 关系 . 不 要 把 两 个 变量 > 和 y 之 间 的 线性 关系 错误 理解 成 因果 关系 . 
一 个 非常 好 的 拟 合 可 能 是 因为 变量 x 是 导致 y 的 原因 , 也 有 可 能 y 是 导致 > 的 原 
因 . 或 者 , 有 一 些 外 在 的 因素 , 用 变量 z 来 刻画 , 以 相同 的 方式 影响 着 zx 和 y. 一 个 
具体 的 例子 是 zi 是 第 一 个 出 生 的 孩子 的 财富 , y; 是 同一 个 家 庭 中 第 二 个 出 生 的 孩 
子 的 财富 . 粗略 地 预计 y; 会 随 着 z; 的 增加 而 线性 增长 , 但 是 这 应 该 归功 于 共同 家 
庭 和 背景 的 影响 , 而 不 是 两 个 孩子 之 间 的 因果 关系 . 
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本 节 将 再 次 讨论 如 何 从 两 个 假设 中 进行 选择 . 与 8.2 节 贝 叶 斯 公式 表达 不 同 ， 
这 里 没有 先 验 概率 的 假设 . 可 以 将 此 看 作 9 只 有 两 个 可 能 取 值 的 推断 问题 , 但 为 保 
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持 一 致 , 需要 抛弃 9 的 记号 , 而 用 Ho 和 五! 代表 两 个 假设 . 在 传统 的 统计 语言 中 ， 
Ho 被 称 作 原 假设 , Hi 被 称 作 备 择 假设 . 这 个 假设 检验 问题 称 为 简单 假设 检验 问题 . 
这 说 明 Ho 的 角色 是 默认 的 模型 , 根据 得 到 的 数据 来 决定 是 支持 还 拒绝 妃 . 

观测 随机 变量 X = (Xi,… ,X) 的 分 布依 赖 于 假设 . 记号 P(X e h; 五;) 表示 
当 假 设 Hj 成 立时 X 属于 4 的 概率 . 注意 与 经 典 推断 内 容 一 致 , 不 存在 条 件 概率 ， 
因为 真实 的 假设 并 没有 被 当 作 随 机 变量 对 待 . 类 似 地 , 用 ps(x; Hj;) 或 fx(z; Hj) 分 
别 表 示 向 量 X 在 假设 万 下 的 分 布 列 或 概率 密度 函数 . 我 们 希望 找到 一 个 决策 准 
则 将 观测 值 x 映射 到 其 中 一 个 假设 上 去 ( 见 图 9.7). 


图 9.7 简单 假设 检验 的 经 典 推断 框架 


任何 一 个 决策 准则 都 可 以 用 样本 空间 的 一 个 分 划 来 表达 . 将 观测 向 量 X = 
(X1,… ,Xn) 所 有 可 能 取 值 的 集合 划分 为 两 个 部 分 : 集合 R, 称 为 拒绝 域 ， 以 及 
它 的 补 集 Rc, 称 为 接受 域 . 当 观 测 数据 X = (Xi1,… ,X,) 落 在 拒绝 域 R 中 , 假设 
Ho 被 拒绝 (声称 Ho 是 错误 的 ), 否则 就 被 接受 , 见 图 9.8. 因此 , 决策 准则 的 选择 等 
价 于 拒绝 域 的 选择 . 


观察 值 z 的 空间 


接受 域 ho, 接受 所 
拒绝 域 , 拒绝 也 


图 9.8 ”简单 假设 检验 决策 准则 的 结构 ， 它 将 所 有 可 能 的 观测 划分 为 集合 R( 拒 绝 域 ) 和 它 的 
补 集 R( 接 受 域 ). 如 果 观 测 的 实际 值 落 在 拒绝 域 中 , 原 假设 被 拒绝 


对 于 一 个 选 定 的 拒绝 域 R, 有 两 种 可 能 的 错误 . 


(a) 拒绝 Ho 而 实际 上 Ho 是 正确 的 . 这 是 第 一 类 错误 , 所 谓 的 错 拒 , 发 生 的 概 
率 是 


a(R) = P(X € R; Ho). 


(b) 接受 Ho 而 事实 上 Ho 是 错误 的 . 这 是 第 二 类 错误 , 所 谓 的 受 假 , 发 生 的 概 


率 是 
B(R) = P(X ¢ R; Hi). 


为 构造 拒绝 域 的 形式 , 将 其 和 贝 叶 斯 假设 检验 做 类 比 ， 在 贝 叶 斯 假设 检验 中 ， 
两 个 假设 为 9 = bo 和 6 = 01, 先 验 概率 分 别 是 pe(bgo) 和 pe(91). 于 是 , 对 于 固定 
的 观测 值 z, 利用 最 大 后 验 概率 准则 让 犯错 的 总 概率 达到 最 小 . 按 这 个 规则 , 如 果 


pe(b)jpxle(zlgo) < pe(9i)pxle(zlol)， 


则 称 @ = 6 是 真 的 (假设 X 是 离散 的 ). ”这 条 准则 也 可 以 这 样 改写 : 定义 似 然 
比 L(z) 为 

pxle(z|01) 

pxle(zl00) 


并 称 9 = 91 是 真 的 , 如 果 观 测 向 量 X 的 实现 值 > 满足 


L(x) = 


L(x) >&, 


其 中 临界 值 é 为 


如 果 X 是 连续 的 , 其 分 析 方 法 是 一 样 的 , 只 是 似 然 比 定义 为 概率 密度 函数 的 比值 : 


_ fxle(z|01) 
fxle(zlbo) 


根据 之 前 最 大 后 验 概率 准则 的 形式 , 考虑 如 下 形式 的 拒绝 域 


(2z) 


R= {zlL(z) > 全， 
其 中 似 然 比 5(z) 的 定义 和 贝 叶 斯 情形 类 似 :” 


PXGH) 或 Fr 大 四 五 1) 
L(®) = p(y Ho) 或 Ll®) fx (7; Ho) 


现在 的 情况 下 , Ho。 和 Hi 不 再 具有 先 验 概率 , 拒绝 域 中 的 常数 上 可 以 自由 地 根据 
各 种 考虑 确定 . 特殊 情况 上 = 1 正好 对 应 了 最 大 似 然 准则 . 


@ 在 这 一 段 我 们 用 到 条 件 概率 的 概念 因为 要 处 理 贝 叶 斯 问题 . 

加 注意 , 我 们 用 L(z) 表示 基于 随机 观测 X 的 观测 值 z 的 似 然 比 的 值 . 另 一 方面 , 最 好 在 做 实验 之 
前 将 似 然 比 看 作 随 机 变量 , 一 个 观测 XX 的 函数 , 记 为 L(XX). L( 关 ) 的 概率 分 布依 赖 于 哪个 假设 是 
真 的 . 
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例 9.10 “现在 想 检验 一 个 六 面 的 从 子 是 否 均匀 , 构造 了 关于 六 个 面 出 现 的 概率 的 
两 个 假设 : 
Ho( 均 名 的 角 子 ) : px(z; Ho) = 


SI 
[| 
| 
性 
[on] 


新 
SB 
I 
二 
5 


车 xz = 3, 4, 5,6. 


(不 均匀 的 般 子 ) : px(z; Hi) = | 


ol 一 


这 个 骨 子 一 次 投掷 z 的 似 然 比 是 


1/4 3 
L(z) = 多 -2 2 


1/8 
176 -= 3/4， 若 z = 3, 4,5,6. 


由 于 似 然 比 只 有 两 个 单独 的 取 值 , 临界 值 上 所 对 应 的 拒绝 域 有 三 种 不 同 的 情况 : 
&<-: ”对 所 有 的 z 拒绝 Fo; 


7 <é< 3: 车 ze {3,4,5,6}, 接受 Ho; 车 ze {1,2}, 拒绝 本; 
3 


<€: ”对 所 有 的 z 接受 Ho. 


直观 上 看 , 若 投掷 结果 是 1 或 2 则 倾向 于 到, 拒绝 Ho. 另 一 方面 , 如 果 将 临界 值 
选 得 太 高 (5 > 3) 就 永远 不 会 拒绝 Ho. 事实 上 对 于 般 子 的 一 次 投掷 , 检验 只 有 当 
3/4 < < 3/2 时 才 有 意义 , 因为 取 其 他 值 的 时 候 , 决策 本 身 并 不 依赖 于 观测 . 

不 同 的 临界 值 犯错 的 概率 可 以 根据 数据 算出 .特别 地 ， 错 误 拒绝 的 概率 P 
(拒绝 Ho; Ho) 为 


1， 若 é < 4 
1 3 3 
a(€) = P(X € {1,2}; Ho) = 3, 车 7 <& <3， 
0, 车 > <&, 
错误 接受 的 概率 P( 接 受 瑟 ; Hi) 为 
0， 若 上 < 3 
P(E) = P(X e {3,45,6};Em)=3， 荐 3 <€< 3 0 


1, 若 > <&. 
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注意 , 在 前 面 的 例子 中 上 的 选择 使 得 两 种 错误 概率 之 间 有 此 消 彼 长 的 关系 . 事 
实 上 , 当 & 增 大 , 拒绝 域 变 小 . 因此 , 错误 拒绝 的 概率 a( 有 RR) 减 小 而 错误 接受 的 概率 
8(RR) 增加 ( 见 图 9.9). 由 于 这 种 平衡 的 存在 , 没有 一 种 简单 最 优 的 方法 来 选择 临界 
值 . 下 面 介绍 一 种 最 受 欢迎 的 方法 . 


虚假 接受 概率 


” 临界 值 & 


BF-e 、N 上 天 的 方向 


1 虚假 拒绝 概率 


图 9.9” 似 然 比 检 验 中 的 犯错 概率 . 当 临 界 值 上 增加 , 拒绝 域 变 小 .因此 , 错误 拒绝 的 概率 a 
减 小 而 错误 接受 的 概率 6 增加 ， 当 a 对 于 & 的 依赖 连续 严格 单调 下 降 , 对 于 给 定 的 
a, 只 有 了 唯一 的 & 与 之 对 应 ( 见 左 图 ). 但 是 a 对 于 & 的 依赖 也 可 能 是 不 连续 的 ,比如 
似 然 比 L(z) 只 有 有 限 个 不 同 的 取 值 ( 见 右 图 ) 


似 然 比 检验 
。 首先 确定 错误 拒绝 的 概率 a 的 目标 值 . 
。 选择 上 的 值 使 得 错误 拒绝 的 概率 为 a: 


P(L(X) > €; Ho) = a. 


。 观测 X 的 取 值 x, 车 Z(z) >& 则 拒绝 Ho. 


根据 错误 拒绝 的 不 愉快 程度 , a 的 典型 选择 是 a = 0.1,a = 0.05 或 a = 0.01. 
注意 在 应 用 似 然 比 检验 时 需要 下 面 的 条 件 . 

(a) 对 于 给 定 的 观测 值 z, 我 们 必须 能 够 计算 L(z), 这 样 才 能 与 临界 值 上 作 比 
较 . 所 幸 在 给 定 分 布 列 或 概率 密度 函数 的 大 部 分 情况 下 都 可 以 做 到 . 

(b) 必须 有 L(X)( 或 相关 随机 变量 InL(X)) 分 布 的 表达 式 或 者 可 以 通过 近似 
分 析 计 算 和 模拟 得 到 . 因为 给 定 错 误 拒 绝 概 率 a, 需要 通过 它 来 确定 相应 的 临界 值 
£. 
例 9.11 一 台 监 视 器 周期 性 地 检查 某 个 特定 区 域 , 并 记录 下 信号 , X= W 为 没有 
入 侵 者 (假设 Ho), 和 X= 1+W 为 存在 入 侵 者 (假设 Hi). 假设 W 是 零 均值 、 已 知 
方差 为 v 的 正 态 随机 变量 . 由 于 


.Hy) = ep/ .Hl (2—1)? 
fx(n Ho) = Bp{ 世上 |， Pre 有 = -ep 人 2 
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似 然 比 为 


L(z) = 2 -oo{( 一 和 -ep{2 | 


给 定 临界 值 &, 如 果 Z(z) > &, 似 然 比 检验 拒绝 Ho. 或 者 等 价 地 , 经 过 直接 计算 , 若 
TZ>v ln é+ > 

则 拒绝 名 . 因此 , 拒绝 域 的 形式 为 
R= {zlx > 7}, 

其 中 7 为 某 个 常数 , 称 为 临界 值 . 7 与 & 的 关系 为 

y=v lh +35; 
见 图 9.10. 当 确 定 错 误 拒 绝 的 概率 a 的 目标 值 以 后 , 可 通过 关系 
a=P(X>7Y;Ho0)=P(W > 7) 


和 正 态 分 布 表 来 找 7. 比如 , 车 a = 0.025, 则 y = 1.96V5. 同样 地 , 还 可 以 用 正 态 
分 布 表 计 算 错 误 接 受 的 概率 


B=P(X &YH)=P(I+WSY)=PW SY-1). 口 


y 


虚假 接受 概率 虚假 拒绝 概率 


接受 域 拒绝 域 
图 9.10 例 9.11 中 的 拒绝 域 和 接受 域 , 以 及 相应 错误 拒绝 和 错误 接受 的 概率 


当 L(X) 是 连续 随机 变量 , 就 像 之 前 的 例子 , 概率 P(L(X) > &; Ho) 随 着 的 
增长 从 1 到 0 连续 移动 . 因而 可 以 找到 的 一 个 取 值 满足 P(L(X) > &; 印 ) = a 
但 车 L(X) 是 离散 的 随机 变量 , 则 未 必 能 找到 恰好 满足 P(L(X) > & 枉 )=a 的 & 
的 取 值 ( 见 例 9.10). 在 这 种 情况 下 一 般 有 几 种 选择 . 

(a) 寻找 使 等 式 近似 成 立 的 取 值 . 
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(b) 选择 满足 P(L(X) > 与 Eo) < a 的 的 最 小 取 值 . 

(c) 利用 外 来 的 随机 性 在 两 个 候选 临界 值 中 作 选 择 . 这 种 检验 方法 称 为 “随机 
化 似 然 比 检验 ”. 这 种 方法 在 理论 研究 上 有 影响 . 但 是 由 于 它 在 实际 中 并 不 十 分 重 
要 , 本 书 对 此 不 作 深入 讨论 . 

通过 与 贝 叶 斯 推断 的 类 比 , 我 们 推动 了 似 然 比 检验 的 应 用 . 但 现在 要 提出 一 个 
更 强 的 结论 : 在 给 定 的 错误 拒绝 概率 之 下 , 似 然 比 检验 使 得 错误 接受 的 概率 达到 最 


小 . 


过量- 皮尔 逊 引 理 
考虑 在 似 然 比 检验 中 一 个 确定 的 &, 从 而 有 犯错 概率 
P(L(X)>é€;Ho)=@, P(L(X) < 6 Hi1)= 1. 
假设 还 有 其 他 检验 , 拒绝 域 为 R, 使 得 错误 拒绝 的 概率 一 样 或 更 小 : 
P(X € R;Ho) a. 


则 有 
P(X ¢ R;Hi)> 8, 
当 P(X € R;Ho) < a 成 立时 , 严格 不 等 式 P(X GRR; Hi) > 有 成 立 . | 


为 证 明 奈 曼 - 皮 尔 逊 引 理 , 考虑 一 个 关于 假设 的 贝 叶 斯 决策 问题 , 其 中 Ho 和 
Hi 的 先 验 概率 满足 


pe(bo) 
pe (01) 


一 多 


即 e 1 
1+Eé’ pe(01) = IE 

如 本 节 开 始 所 讨论 , 利用 最 大 后 验 概率 准则 得 到 的 门限 值 为 &, 这 与 利用 似 然 比 检 
验 准则 得 到 的 结论 是 一 样 的 . 由 最 大 后 验 概 率 准 则 知 , 犯错 的 概率 为 


De (6o) 三 


é 1 

三 Te 

由 8.2 节 知 它 小 于 或 等 于 任何 其 他 贝 叶 斯 决策 准则 的 犯错 概率 . 这 说 明 任 选 拒绝 域 
忆 都 有 


eMAP 一 十 


1 
EMAP < 这 PC E R; Ho)+ IE 全 ¢ R; Hi). 


比较 前 面 两 个 关系 式 得 , 若 P(X e R; Ho) < a, 则 必须 有 P(X 天 局 机) > B; 若 
P(X e R; HH) < a, 则 必须 有 P(X 4 R; 了 本) > 8. 这 正 是 奈 曼 -皮尔 逊 引 理 的 结论 . 
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奈 曼 -皮尔 逊 引 理 可 以 用 画图 的 方式 来 解释 , 见 图 9.11. 下 面 将 用 几 个 例子 来 
说 明 这 一 引 理 . 


9 1 虚假 拒绝 概率 


图 9.11 ， 奈 曼 -皮尔 逊 引 理 的 解释 . 考虑 所 有 错误 概率 数 对 (a(R),6(R)) 的 集合 2, 当 已 取 遍 
所 有 可 能 的 拒绝 域 (样本 空间 的 子 集 ). £ 的 有 效 边界 是 这 样 的 向 量 (a(R), 8(R)) 的 
集合 : 不 存在 (a, 68) E 使 得 a < alR) 且 6 <B(R), 或 者 a <a(R) 且 B< B(R). 
奈 曼 -皮尔 还 引 理 说 的 是 似 然 比 检验 中 所 有 的 (a(R), 8(R)) 都 在 有 效 边界 上 


例 9.12 接着 考虑 例 9.10, 投掷 般 子 一 次 来 检验 它 是 否 均匀 . 考虑 所 有 错误 概率 
数 对 (a(R),B(R)) 的 集合 2, 其 中 R 取 遍 所 有 可 能 的 拒绝 域 (样本 空间 {1,… ,6} 
的 所 有 子 集 )， 图 9.12 中 画 出 了 集合 5， 可 以 看 出 似 然 比 检验 中 的 犯错 概率 数 对 
(1,0), (1/3,1/2) 和 (0,1) 具有 奈 曼 -皮尔 逊 引 理 给 出 的 性 质 (比如 落 在 有 效 边界 上 ， 
见 图 9.11 中 的 术语 ). 口 


图 9.12 ”图 中 显示 了 例 9.10 和 例 9.12 中 所 有 错误 概率 数 对 (a(R), 8(R)) 的 集合 E, 其 中 RR 
取 遍 观测 空间 {1,… ,6} 的 所 有 子 集 . (1 0), (1/3, 1/2) 和 (0, 1) 是 似 然 比 检验 中 的 
犯错 概率 数 对 


例 9.13 (不 同 拒绝 域 的 比较 ) ” 设 观 测 为 Xi, X2, 它们 是 独立 同 分 布 的 单位 方差 正 
态 随 机 变量 . 在 Ho 的 假设 下 它们 的 共同 均值 是 0, 而 在 的 假设 下 它们 的 共同 
均值 是 2. 设 错误 拒绝 的 概率 为 a = 0.05. 
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首先 根据 似 然 比 检验 推导 公式 , 然后 计算 8 的 值 . 似 然 比 的 形式 为 


高 exp{—((x1 — 2)? 十 (za — 2)2)/2} 
xp{-(z1 + 72)/2} 


比较 L(x) 和 临界 值 上 等 价 于 比较 z1 +za 和 7 = (4 十 Iné)/2. 因而 根据 似 然 比 检 
验 , 如 果 zi + za > 7 则 倾向 于 承认 HH. 这 确定 了 拒绝 域 的 形状 . 

为 确定 拒绝 域 的 具体 形式 , 我 们 要 找到 7 使 得 错误 拒绝 的 概率 P(X1 十 Xa > 
~; Ho) 为 0.05. 注意 , 在 Ho 的 假设 下 , 2 = (Xi 十 X2)/V2 是 标准 正 态 随机 变量 , 则 
有 


L(z) = 


= exp{2(z1 十 z2) -4 


及 1 十 区 2 7 ) ( 入) 
0.05 = P(X1 十 Xea > 7 五 o) = 了 >—;Ho)=PIZ>—=|. 
( 1 2>7Y; 0) ( Vi V3 0 V3 


根据 正 态 分 布 表 , 得 到 P(Z > 1.645) = 0.05, 因而 选择 


y= 1.645. V2 = 2.33, 
得 到 拒绝 域 为 
R= {(zi,7x2)|z1 十 Za > 2.33}. 


为 评价 这 个 检验 的 表现 , 我 们 计算 错误 接受 的 概率 . 在 Hi 的 假设 下 , X + X2 
服从 均值 为 4 方差 为 2 的 正 态 分 布 , 因而 2 = (Xi + Xa - 4 和/V2 是 标准 正 态 随机 
变量 . 根据 正 态 分 布 表 , 错误 接受 的 概率 是 


B(R) =P(X1 + X2 < 2.33; Hi1) 


_p (于 :和 -4 2 和 4 ) 
V2 V2 


=P(Z < —1.18) 
=P(Z > 1.18) 
=1—P(Z < 1.18) 
=1— 0.88 


=0.12. 
现在 来 比较 似 然 比 检验 在 不 同 的 拒绝 域 R' 下 的 表现 . 比如 考虑 一 个 形式 为 


R’ = {(21,72)| max{z1, 22} > ¢} 
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的 拒绝 域 , 其 中 < 的 选择 使 得 错误 拒绝 的 概率 仍然 为 0.05. 为 确定 < 的 值 , 有 
0.05 =P(max{X1, Xa} > ci Ho) 
=1— P(max{X1, X2} « ¢; Ho) 
=1— P(X1 和 ¢; Ho)P(X2 < ¢; Ho) 
=1— (P(Z & ¢; Ho))’, 


其 中 2 是 标准 正 态 的 . 推出 P(Z < ci; ) = V1 一 0.05 = 0.975. 由 正 态 分 布 表 得 到 
C= 1.96. 
现在 来 计算 相应 错误 接受 的 概率 . 记 2 是 标准 正 态 的 随机 变量 , 于 是 


B(R') =P(max{X1, X2} < 1.96; Hi) 
=(P(X1 < 1.96; 1)}? 
=(P(X1 一 2 < 一 0.04; Fi))? 
=(P(Z < 一 0.04))2 
= (0.49)? 
=0.24. 


可 以 看 见 似 然 比 检验 的 错误 接受 的 概率 8(R) = 0.12, 比 另 一 种 检验 错误 接受 的 概 
率 8(R') = 0.24 要 好 很 多 . 口 
例 9.14 (一 个 离散 的 例子 ) ”将 一 枚 硬币 独立 地 投掷 25 次 . Ho: 一 次 投掷 正面 向 
上 的 概率 为 bo = 1/2; 1: 一 次 投掷 正面 向 上 的 概率 为 91 = 2/3. 令 X 是 观测 到 
正面 向 上 的 次 数 . 固定 错误 拒绝 的 概率 为 0.1, 似 然 比 检验 的 拒绝 域 是 什么 呢 ? 
当 多 =, 似 然 比 的 形式 为 
Lk) = OE) _ 人 oa) (=2) _ ok @) 


(P08(1— 00)"* Nb 1—01 1— 0 3 
注意 L(k) 是 关于 的 单调 增 函 数 . 因此 , 拒绝 条 件 L(k) > & 等 价 于 大 > ,其 中 
是 一 个 依赖 与 上 的 一 个 合适 的 常数 . 所 以 似 然 比 检验 为 
若 X > >, 则 拒绝 . 
为 保证 满足 错误 拒绝 概率 , 需要 找到 使 得 P(X > Yi Ho) < 0.1 成 立 的 最 小 y 值 , 或 


25 


2 
》， ( 各 2-25 < 0.1. 


?一 了 十 工 
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通过 计算 不 同 7 对 应 取 值 找到 符合 要 求 的 y= 16. 
另 一 种 选择 ?7 的 方法 用 到 中 心 极限 定理 的 近似 . 在 Ho 的 假设 下 ， 


XX 一 n0 六 一 12.5 
20 


VnbOo(l 一 00) 25/4 
是 近似 标准 正 态 随机 变量 . 因而 有 


区 一 12.5 一 12.5 2 
oem > 而 ] -z(z> 宇 - 引 ， 


V2/4 ” Va 5 


由 正 态 分 布 表 , $8(1.28) = 0.9, 选择 7 满足 (27y/5) -5 = 1.28, 即 7 = 15.7. 由 于 XX 
是 整数 , 似 然 比 检验 在 X > 15 的 时 候 应 当 拒 绝 妃 o. 口 


9.4 ”显著 性 检验 


在 实际 情况 中 , 假设 检验 问题 并 不 总 是 包含 两 个 特定 的 选择 , 因而 9.3 节 的 方 
法 便 不 再 适用 . 本 节 的 目的 是 介绍 一 类 更 一 般 的 问题 , 并 提供 解决 办 法 . 需要 提醒 
的 是 , 我 们 提供 的 方法 既 不 是 唯一 的 也 不 是 普 适 的 , 判断 力 和 技巧 是 很 重要 的 组 成 
部 分 . 

可 以 考虑 以 下 问题 来 开启 思维 . 

(i) 重复 独立 投掷 一 枚 硬币 . 这 枚 硬币 是 均匀 的 吗 ? 

(ii) 重复 独立 投 找 一 个 贷 子 . 这 颗 骨 子 是 均匀 的 吗 ? 

(ii) 观测 到 一 列 独 立 同 分 布 的 正 态 随机 变量 Xi,:… , X,,, 它们 是 标准 正 态 的 
吗 ? 

(iv) 将 得 了 同一 种 病 的 病人 分 成 两 组 , 用 两 种 不 同 的 药 治疗 , 第 一 种 治疗 比 第 

二 种 更 有 效 吗 ? 

(v) 基于 历史 数据 (比如 去 年 的 ), 道琼斯 指数 每 日 的 变化 服从 正 态 分 布 吗 ? 

(vi) 基于 两 个 随机 变量 X 和 了 的 一 些 样本 (x;,y;), 能 够 判断 两 个 随机 变量 是 
否 独 立 吗 ? 

在 上 述 所 有 情况 中 , 我 们 都 在 处 理 具 有 不 确定 性 并 且 具 有 某 种 统计 规律 的 现 
象 . 在 上 述 问 题 中 , 我 们 提出 一 个 默认 的 假设 , 称 为 原 假设 , 记 作 Ho. 我 们 根据 观 
测 瑟 = (Xi1,… ,XX) 来 决定 是 拒绝 还 是 接受 原 假设 . 

为 避免 主要 思想 上 的 含糊 ， 要 将 我 们 的 讨论 范围 限制 在 具有 下 列 特征 的 情况 
中 . 

(a) 参数 模型 : 假设 观测 X,… ,XX 服从 完全 由 未 知 参数 0( 标 量 或 向 量 ) 决定 
的 分 布 列 或 联合 概率 密度 函数 (连续 ), 9 在 给 定 的 集合 M 中 取 值 . 

(b) 简单 原 假设 : 原 假设 说 的 是 9 的 真 值 等 于 AM 中 一 个 给 定 的 元 素 90. 
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(c) 备 择 假设 : 备 择 假设 Hi, 是 说 Ho 不 正确 , 即 9 # 90. 
前 面 的 引 例 中 , (i) ~ (ii) 满足 (a)~(c). 而 例 (iv) ~ (vi) 的 原 假 设 并 不 简单 , 违 
背 了 条 件 (b). 


9.4.1 “一般 方法 


我 们 首先 通过 一 个 具体 的 例子 来 介绍 一 般 的 方法 .然后 对 不 同 的 步骤 进行 总 
结 和 评论 . 最 后 , 再 来 看 一 些 用 一 般 方 法 能 够 解决 的 例子 . 
例 9.15 (我 的 硬币 均匀 了 吗 ? ) ”投掷 一 枚 硬币 n = 1 000 次 , 每 次 投掷 之 间 独 立 . 9 
是 未 知 的 每 次 投 撕 正面 朝 上 的 概率 . 参数 可 能 取 值 的 集合 是 At = [0, 1]. 原 假设 ( 硬 
币 是 均匀 的 ) 是 9 = 1/2. 备 择 假设 是 9 zz 1/2. 

观测 数据 是 序列 X，,… ,X 代表 ”次 投掷 硬币 的 结果 , 第 i 次 投掷 的 结果 为 
正面 朝 上 则 X; 取 值 为 1, 否则 X; 取 值 为 0. 我 们 选择 5 = Xi 十 … 十 XX 的 值 , 即 
观测 到 正面 朝 上 的 次 数 , 并 用 这 样 的 决策 准则 ; 


车 ls 一 | > 6 则 拒绝 万 0， 


其 中 是 待定 的 合适 的 临界 值 . 目前 为 止 我 们 已 经 确定 了 拒绝 域 R( 措 绝 原 假设 的 
数据 集合 ) 的 形状 . 最 后 要 做 的 是 选择 临界 值 & 使 得 错误 拒绝 的 概率 等 于 给 定 的 什 


CQ: 


P( 拒 绝 Ho; 本 ) = a. 


典型 的 a 是 一 个 很 小 的 数 , 称 为 显著 水 平 , 这 个 例子 中 取 a = 0.05. 

到 目前 为 止 , 我 们 只 是 提供 了 一 系列 直观 的 操作 法 . 确定 临界 值 上 需要 一 些 概 
率 计算 . 在 原 假设 下 , 随机 变量 9 服从 参数 为 n= 1 000 和 p= 1/2 的 二 项 分 布 . 由 
于 样本 量 很 大 的 时 候 , 可 利用 正 态 分 布 逼近 二 项 分 布 , 再 利用 正 态 分 布 表 可 得 到 临 
界 值 的 近似 选择 5 = 31. 假设 车 5 的 观测 值 为 = 472, 则 有 


ls — 500| = |472 — 500| = 28 < 31, 


因而 在 5% 显著 水 平 下 不 拒绝 假设 Ho. 口 


在 上 例 的 最 后 , 我 们 是 故意 说 “不 拒绝 ”而 非 “ 接 受 ” 的 . 我 们 没有 任何 确凿 的 
证 据说 9 等 于 1/2 而 不 是 0.51. 我 们 只 能 说 5 的 观测 值 没 有 提供 有 力 的 证 据 来 反 
对 假设 开 . 

现在 从 前 面 的 例子 中 总 结 归 纳 得 到 一 种 一 般 的 方法 . 
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显著 性 检验 的 方法 
基于 观测 X1,… ,Xn, 将 对 假设 “Ho : 9 = 0*” 做 统计 检验 . 
。 以 下 步骤 在 得 到 观测 数据 之 前 完成 . 
(a) 选择 统计 量 9， 一 个 能 够 概括 观测 数据 的 随机 变量 . 从 数学 的 角度 上 
看 , 就 是 选择 函数 h:R" 一 及 使 得 统计 量 S = h(X1,.…… ,Xn). 
(b) 确定 拒绝 域 的 形状 : 拒绝 域 通常 由 8 的 取 值 组 成 的 一 个 集合 , 当 3 落 
入 这 个 集合 时 , 就 拒绝 Ho. 在 确定 这 个 集合 的 时 候 , 还 涉及 一 个 未 定 
的 常数 &, 这 个 常数 称 为 临界 值 . 
(c) 选择 显著 水 平 : 错误 拒绝 Ho 的 概率 a. 
(d) 选择 临界 值 E, 使 得 错误 拒绝 的 概率 等 于 或 近似 等 于 a. 这 时 候 , 拒绝 
域 就 完全 决定 了 . 
。 一 旦 得 到 Xi1,… ,Xn 的 观测 值 21,:… ,Zn: 
(i) 计算 统计 量 5S 的 值 s = h(x1,:… ,zn). 
| (i) 车 s 落 在 拒绝 域 中 , 拒绝 假设 Ho. | 


下 面 对 上 述 方法 中 各 个 部 分 做 一 些 解释 和 评论 . 

(i) 没有 一 种 万 能 的 方法 来 选择 “正确 ”的 统计 量 S， 在 一 些 例 子 中 ,比如 例 
9.15, 这 种 选择 是 自然 的 并 且 能 从 数学 的 角度 证 明 其 优良 性 能 . 另外 , 我 们 还 可 以 将 
似 然 比 的 概念 进行 推广 , 得 到 有 使 用 价值 的 5, 这 将 在 本 节 后 一 部 分 讨论 . 最 后 , 在 
考虑 5 的 选择 的 时 候 , 一 个 重要 的 原则 是 : 5 的 简洁 性 , 是 否 足够 简单 从 而 能 够 进 
行 上 面 方 法 中 步骤 (d) 的 计算 . 

(ii) 不 拒绝 Po 的 5 取 值 的 集合 一 般 是 包含 (在 Ho 的 假定 下 )8 的 分 布 密度 
峰值 的 一 个 区 间 ( 见 图 9.13). 当 样 本 量 很 大 的 时 候 , 可 利用 中 心 极限 定理 . 由 于 正 
态 分 布 密度 有 对 称 点 , 可 取 关 于 5S 的 均值 对 称 的 一 个 区 间作 为 接受 域 . 类 似 地 , 例 
9.15 中 对 称 的 拒绝 域 是 根据 事实 在 Bo 下 5 的 分 布 (参数 为 1/2 的 二 项 分 布 ) 关于 
其 均值 对 称 而 建立 的 . 其 他 例子 中 , 非 对 称 的 拒绝 域 可 能 更 加 合适 . 比如 在 例 9.15 
中 , 若 事 先 我 们 能 够 确定 9 > 1/2, 那么 单 边 的 拒绝 域 是 自然 的 : 


若 5 一 7 >& 则 拒绝 H. 


(这 ) 一 般 错误 拒绝 的 概率 a 在 a = 0.10 和 a = 0.01 之 间 选 择 . 当然 人 们 都 希 
望 错误 拒绝 的 概率 尽 可 能 地 小 , 但 是 由 于 两 类 错误 概率 的 互相 消长 关系 , a 取 值 很 
小 会 使 得 拒绝 错误 假设 变 得 困难 , 相应 地 增加 了 错误 接受 的 概率 . 

(iv) 步骤 (d) 是 唯一 需要 概率 计算 的 地 方 . 它 需 要 知道 L(X)( 或 者 相关 随机 变 
量 如 lnL(X)) 在 假设 Ho 成 立时 的 分 布 (或 近似 分 布 ). 一 些 特殊 情况 中 , 可 以 是 直 
接 给 出 分 布 或 者 经 过 简单 推导 就 可 以 得 到 其 分 布 . 然而 除了 相对 简单 的 情形 , 一 般 
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很 难 找 出 8 的 分 布 的 具体 表达 形式 . 若 ” 很 大 , 可 以 利用 中 心 极限 定理 求 出 近似 
分 布 . 但 是 , 当 n 不 是 很 大 的 时 候 , 就 很 难得 到 近似 分 布 . 这 种 想 要 得 到 易 处 理 的 
表达 式 或 近似 公式 的 愿望 驱使 我 们 寻找 更 加 实用 的 统计 量 9. 另 一 种 解决 困境 的 
途径 是 利用 模拟 的 方式 估计 5 的 分 布 , 例如 产生 大 量 独立 的 X 的 模拟 样本 , 根据 
L(X) 画 出 直方 图 或 估计 的 分 布 . 


fols; Ho) 显著 下 水 平 


拒绝 域 


图 9.13 显著 性 检验 基于 统计 量 8 在 原 假设 下 的 分 布 的 双边 和 单 边 拒绝 域 . 显著 水 平 是 错误 
拒绝 的 概率 , 也 就 是 在 Ho 成 立时 统计 量 5S 落 在 拒绝 域 中 的 概率 


给 定 a 的 值 , 如 果 假设 U 被 拒绝 , 我 们 就 说 天 在 显著 水 平 a 之 下 被 拒绝 . 这 
个 说 法 需要 一 个 合理 的 解释 . 它 并 不 是 说 事件 “AH 真实 ”的 概率 小 于 a. 它 说 的 
是 : 利用 这 种 检验 方法 时 , “错误 拒绝 ”的 百分比 为 a. 在 1% 的 显著 水 平 下 拒绝 
一 个 假设 意味 着 观测 数据 在 Ho 成 立 的 模型 中 显得 很 不 正常 ; 这 种 数据 只 会 以 1% 
的 可 能 性 出 现 , 因而 为 “Ho 不 真 ” 提 供 了 有 力 的 证 据 . 

很 多 时 候 , 统计 学 家 跳 过 上 述 方法 中 的 步骤 (c) 和 步骤 (d). 取而代之 , 他 们 计 
算 8 的 真实 值 。 并 汇报 相关 的 r 值 , 定义 如 下 : 


户 值 = min{alHo 在 显著 水 平 a 之 下 被 拒绝 }. 


等 价 地 , p 值 就 是 s 应 当 在 拒绝 与 被 拒绝 分 界 所 处 位 置 的 a 值 . 因此 举例 来 说 , 原 
假设 在 5% 显著 水 平 下 被 拒绝 当 且 仅 当 p 值 小 于 0.05. 

下 面 将 用 一 些 例 子 来 解释 主要 思想 . 
例 9.16 ( 正 态 分 布 随机 变量 的 均值 等 于 零 吗 ? ) ”假设 X; 是 独立 正 态 随机 变量 ， 
均值 为 9, 方差 o? 已 知 . 考虑 的 假设 检验 问题 是 : 


Ho: 0=0, Hi: 0 0. 
一 个 合理 的 统计 量 是 样本 均值 (Xi + … + Xn)/n 或 者 变换 系数 后 的 
Xi1 + + Xn 
ovVn 


拒绝 域 形状 的 自然 选择 是 拒绝 HH 当 且 仅 当 |8| > &. 因为 在 Fo 为 真 的 假定 之 下 ， 
S 服从 标准 正 态 分 布 , 5 相应 于 任意 a 的 取 值 可 以 很 容易 的 从 正 态 分 布 表 中 找到 ， 


9 一 
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比如 a = 0.05, 由 P(S < 1.96) = 0.975 可 知 , 检验 可 如 下 执行 : 
若 |S| > 1.96， 则 拒绝 已 o， 


或 者 等 价 地 ， 
车 |Xi 十 … 十 Xn| > 1.96cVn, 则 拒绝 HH. 


从 单 边 的 角度 来 考虑 , 备 择 假设 变 为 二 : 9 > 0. 这 时 候 可 以 用 一 样 的 统计 量 
S, 但 是 当 5 > & 时 拒绝 Bo, 其 中 & 根据 P(5 > &) = a 来 取 值 . 同样 , 5 服从 标准 
正 态 分 布 , 相应 于 任意 a 的 取 值 可 以 很 容易 的 从 正 态 分 布 表 中 找到 . 

最 后 , 若 o2 未 知 , 可 以 用 估计 来 代替 , 如 


CE 


—1 n 
1 i=1 


这 时 得 到 的 统计 量 服 从 t 分 布 (而 不 是 正 态 分 布 ). 车 n 相对 较 小 , 此 时 应 该 使 用 
t 分 布 表 而 不 是 正 态 分 布 表 (参见 9.1 节 ). 口 
例 9.17 讨论 复杂 的 原 假设 天 , 这 意味 着 它 不 是 由 单一 分 布 所 确定 的 . 
例 9.17 (两 个 组 的 均值 相等 ? ) ”我 们 现在 想 检验 一 种 药物 在 治疗 两 个 人 数 不 同 的 
小 组 中 效果 是 否 相同 . 分 别 从 两 组 中 抽取 样本 Xi1,… ,X， 和 瑟 …… ,Yi,, 若 药物 
治疗 对 第 一 组 (或 第 二 组 ) 的 第 i 个 人 有 效 则  = 1( 或 二 = 1), 否则 X; = 0( 或 
Yi = 0). 将 每 个 XX;( 或 区 ) 看 作 伯 努 利 随机 变量 , 未 知 均值 为 6x( 相 应 的 9y), 并 考 
虑 假设 


Ho: bx = 0y, Hi: Ox 0y. 


需要 注意 的 是 有 很 多 对 (0x, by) 都 满足 Ho, 因而 Ho 是 复杂 假设 . 
两 组 的 样本 均值 为 


Ox = 2 Oy = 志和 下 

bx 一 by 的 一 个 合理 的 估计 量 是 6x - 6y. 一 个 可 接受 的 选择 是 拒绝 Ho 当 且 仅 当 
I@x — Oy| > 

其 中 上 上 值 由 给 定 错误 拒绝 概率 a 所 确定 . 但 是 选择 合适 的 上 很 困难 , 因为 6@x -6r 


在 Ho 下 的 分 布 由 未 明确 的 参数 9x 和 br 决定 . 这 激发 了 另 一 种 统计 量 的 发 展 , 我 
们 接 下 来 将 要 讨论 这 种 方法 . 
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对 于 很 大 的 wm 和 nz, 6x 和 @yv 近似 正 态 且 相互 独立 , 因而 6x -By 也 是 近 
似 正 态 , 均值 为 gx 一 9y, 方差 是 


Ox(l— Ox) 十 0y(1 — 0y) 
n1 nz 


在 名 的 假设 下 , 6x - 6ry 已 知 为 零 , 但 其 方差 未 知 , 因为 不 知道 9x 和 br 的 共同 
取 值 . 另 一 方面 , 在 Ho 的 假设 下 , gx 和 br 的 共同 取 值 可 以 用 样本 均值 


[e) 一 D1 Xi 十 D1 Y 


ni 二 no 


来 估计 , 方差 var(@x - y) = var( 和 x) 十 var(@y) 可 以 近似 为 


62 = (二 十 二) el1- 6)， 
也 1 TL2 


且 (6x - 6r)/6 近似 标准 正 态 随 机 变量 . 因而 考虑 采取 下 列 方式 完成 检验 


var(Ox 一 Oy) = var(Ox) 十 var(Oy) 一 


着 j@x 9 > 6 则 拒绝 


选择 满足 B(£) = 1 -a/2 的 &, 其 中 B 是 标准 正 态 分 布 的 概率 分 布 函数 ， 比如 
a = 0.05, 得 到 拒绝 域 形 式 为 


| 一 Or)| > re | 


实际 中 , 问题 的 提 法 还 会 有 稍微 的 变化 ?此 时 应 考虑 假设 
Ho: bx = 0y, Hi: bx > Oy. 


那么 相应 的 拒绝 域 就 是 单 边 的 , 形式 为 


(se 


其 中 临界 值 是 满足 8(£) =1-a 的 &. 口 

上 一 个 例子 解释 了 复合 型 原 假设 的 一 类 问题 . 为 确定 合适 的 临界 值 , 我 们 更 希 
望 能 找到 一 个 统计 量 , 使 得 它 的 近似 分 布 相对 于 原 假设 的 所 有 参数 值 都 一 样 , 就 像 
例 9.17 中 的 统计 量 (人 @x - 6@y)/6 那样 . 


@ 例如 第 二 组 病人 的 效果 是 否 不 如 第 一 组 病人 的 效果 . 一 译 者 注 
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9.4.2 ”广义 似 然 比 和 拟 合 优 度 检验 


我 们 讨论 的 最 后 一 个 课题 是 : 检验 给 定 的 分 布 列 是 否 和 观测 数据 保持 一 致 . 这 
是 一 个 很 重要 的 问题 , 称 之 为 拟 合 优 度 检 验 . 这 也 是 一 个 在 复合 备 择 假设 情况 下 显 
著 性 检验 的 一 般 方法 . 

考虑 一 个 在 有 限 集合 {1,… ,m} 上 取 值 的 随机 变量 , 9 是 随机 变量 取 值 大 的 
概率 . 因而 这 个 随机 变量 的 分 布 列 由 向 量 参数 9 = (91,… ,60mm) 刻画 . 考虑 假设 


Ho: 0=(07,:.. ,0%), Hi: 0@# (07,... ,0%), 


其 中 {bx} 是 一 组 给 定 的 非 负数 , 且 和 为 1. 现在 抽取 随机 变量 的 一 个 样本 量 为 m 
的 样本 , 令 Ni; 是 样本 中 结果 为 的 次 数 . 这 样 实际 观测 得 到 的 随机 变量 是 XX = 
(和 Ni,… ;Nm), 观察 值 为 z = (n1,… ,nm). 注意 Ni 十 … 十 Nm 一 1 十 …' 十 Nm 二. 

上 面 这 种 概率 模型 有 很 多 实际 背景 , 我 们 用 撕 骨 子 这 种 易于 理解 的 例子 加 以 
说 明 , 考虑 n 次 独立 地 投 撕 一 颗 骨 子 , 原 假设 Ho 是 : 骨 子 是 均匀 的 . 这 时 驮 = 
1/6, 上 二 1,… ,6, Nk 是 m” 次 投掷 中 结果 为 大 的 次 数 . 注意 备 择 假设 HH 是 复合 的 ， 
因为 9 有 很 多 选择 . 

下 面 介绍 的 方法 是 广义 似 然 比 检验 , 它 包 含 两 个 步 又 . 

(a) 通过 最 大 似 然 来 估计 模型 , 比如 选择 在 所 有 9 中 使 得 似 然 函 数 px (x;09) 达 
到 最 大 的 参数 向 量 6 = (61,… ,6,,). 

(b) 进行 似 然 比 检验 , 具体 地 说 , 比较 估计 模型 的 似 然 函数 px(z; 人 和 本 下 
的 px(z;0*). 更 具体 地 , 计算 广义 似 然 比 


px (x;0) 

px(z;0*)" 
若 它 超过 临界 值 € 则 拒绝 Ho. 和 简单 假设 检验 中 一 样 , 我 们 选择 & 使 得 错误 拒绝 
的 概率 (近似 ) 等 于 给 定 的 显著 水 平 a. 

从 本 质 上 说 , 这 种 方法 提出 了 以 下 问题 : 相对 于 Ho 下 的 模型 , 是 否 存 在 和 Hi 
相符 的 模型 对 观测 数据 有 更 好 的 解释 呢 ? 为 回答 这 个 问题 , 我 们 比较 在 Ho 下 的 可 
能 px(z;0*) 和 相应 于 估计 模型 的 最 大 可 能 px (zx; 全 . 

现在 按 广义 似 然 比 检验 方法 解决 据 骨 子 中 的 检验 问题 . 第 一 步 , 求 似 然 函数 在 
(91,… ,9m) 的 集合 上 的 最 大 值 点 (最 大 似 然 估 计 ). 观测 向 量 X 的 分 布 列 是 一 个 多 
项 式 (参见 第 2 章 习 题 27), 似 然 函 数 是 


px(7x;0) = c07! .Om, 


其 中 c 是 归 一 化 常数 . 在 求 最 大 值 点 时 候 , 求 对 数 似 然 函数 的 最 大 值 点 会 相对 容易 ， 
其 形式 


Inpx(z;0) =Inc+nilnt + +nm_ilnOn + 一 由 一 … 一 0 1), 
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此 处 利用 关系 式 六 + …+ 0m = 1 消除 了 多 余 参 数 bg. 假设 使 似 然 函 数 达到 最 大 
的 向 量 6 的 每 一 个 分 量 都 是 正 的 , 那么 对 数 似 然 函 数 的 各 个 偏 导数 在 6 处 均 为 0. 
利用 这 个 性 质 , 可 以 得 到 

Nk Nm, 

Ey | 其 中 k=1,.…,m 一 1. 
由 于 右边 的 项 等 于 nm/6m, 可 知 所 有 比值 ns/6x 都 相等 . 根据 ni 十 … 十 mm =n 
得 到 

包 = 从 ， k=1,.… EA 
可 以 看 出 即使 有 mx 为 零 , 仍 能 得 到 正确 的 最 大 似 然 估计 , 相应 的 所 也 为 零 . 
现在 计算 广义 似 然 比 , 得 到 如 下 的 广义 似 然 比 检验 ? 


车 Ex 人 - T /DW > 则 拒绝 有 


PKU) i 《8 
其 中 & 是 临界 值 . 在 栓 验 的 个 等 式 两 边 取 对 数 ， 检验 变 为 
, 则 拒绝 Ho. 
根据 要 求 的 显著 水 平 来 确定 常 孝 


P(S > Iné; Ho) = a, 
其 中 


Nk 

人 

因为 5 在 Ho 下 的 分 布 很 复杂 , 要 求 出 me 的 精确 解 并 非 易 事 , 但 可 以 通过 模拟 解 
决 . 


5= 2 Nh (: 


所 幸 当 n 很 大 的 时 候 这 可 以 大 大 简化 . 这 个 时 候 , 观测 频率 炙 = n/n 在 所 
下 以 很 大 的 概率 与 多 接近 . 二 阶 泰勒 展 式 显示 统计 量 T/2 是 5 的 很 好 的 近似 , 其 
中 了 是 2 


Q@ 这 里 运用 约定 00 = 1 和 0.Iln0 = 0. 
@ 对 任何 y* > 0, 函数 yin (y/y*) 的 二 阶 泰勒 展 式 为 


1 
vn (ES) sy y+ (y— vw) 
y y* 


当 yf/y* ~ 1 时 成 立 . 因此 ， 


学 mn (入 本 二 - not) 十 > (NE 二 "2 - 


k 
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进一步 地 , 当 n 很 大 的 时 候 , 在 Ho 假设 下 , T 的 分 布 (25 的 分 布 ) 逼近 “自由 度 为 
m 一 1 的 x2 分 布 ”.9 此 分 布 的 分 布 函数 可 以 在 表 中 查 到 (类 似 正 态 分 布 表 ). 因此 ， 
可 以 在 x 分 布 表 中 找到 P(T > 7y; Ho) 或 P(25 > Y; 印 ) 的 近似 真 值 , 然后 根据 给 
定 的 显著 水 平 c 来 确定 合适 的 临界 值 . 将 所 有 内 容 合 起 来 , 对 于 较 大 的 nn 有 下 面 的 


X2 检验 


。 利用 统计 量 
-一 n Nx 
$= oN ( 蘑 ) 
(或 者 相关 的 统计 量 了 ) 以 及 拒绝 域 
{2S > 7} 


进行 检验 (或 相应 的 {T > 7}). 
。 临界 值 & 依照 自由 度 为 m 一 1 的 Xx? 分 布 的 概率 分 布 函 数 表 确 定 , 满足 


P(29 > 7; Ho) = a, 


其 中 a 是 给 定 的 显著 水 平 ， 


例 9.18 (我 的 般 子 均匀 了 吗 ? ) ”独立 地 投 措 一 颗 山 子 共 600 次 , 得 到 数字 1, 2, 3, 4， 
5, 6 出 现 的 次 数 分 别 为 


nl 二 92, n2 一 120， n3 一 88, ?74 一 98, n5 一 95, ne 一 107. 


现在 用 基于 7 统计 量 的 x? 检验 来 检验 原 假设 Ho: 般 子 是 均匀 的 ,显著 水 平 为 
a = 0.05. 根据 自由 度 为 5 的 x? 分 布 表 得 到 满足 P(T > 7; Ho) = 0.05 的 7 = 11.1. 


@@ 自由 度 为 1 的 X2 分 布 定义 为 随机 变量 


的 分 布 , 其 中 21,… , Zi 是 服从 标准 正 态 分 布 (均值 为 零 , 方差 为 1) 的 随机 变量 . 可 以 从 直观 上 
来 解释 为 什么 工 近似 x? 分 布 : 当 一 co, Ns /n 不 仅 收敛 到 0 同时 也 是 渐 近 正 态 的 . 因此 , 了 
等 于 m 个 零 均 值 正 态 随机 变量 (Nu 一 n0*)/ V9 的 和 . 人 的 自由 度 为 m ~ 1 而 不 是 m, 这 是 
因为 忱 全 1 Ns = mw 从 而 mm 个 随机 变量 是 相关 的 . 
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由 红 =…== 颈 二 1/6, n= 600,nbx = 100 以 及 给 定 的 nk;, 了 统计 量 的 值 是 
m (ok 一 nby)2 (92— 100)? + (120 — 100)? + (88 — 100)? 
=! no 100 100 100 
上 (98 — 100)? 四 (95 — 100)? 和 (107 — 100)2 
100 100 100 


一 6.86. 


因为 了 = 6.86 < 11.1, 无 法 拒绝 般 子 是 均匀 的 假设 . 如 果 用 的 是 5 统计 量 , 得 到 的 
是 25 = 6.86, 同样 小 于 临界 值 7 = 11.1. 如 果 显 著 水 平 a = 0.25, 相应 的 y 值 为 
6.63. 这 时 由 于 了 全 = 6.86 > 6.63 和 25 = 6.86 > 6.63, 我 们 将 拒绝 般 子 是 均匀 的 假 
设 . 口 


9.5 “小 结 和 讨论 


经 典 推断 方法 和 贝 叶 斯 方法 不 同 , 它 将 9 看 作 未 知 的 常数 . 经 典 参 数 估计 的 目 
标 是 在 9 所 有 可 能 的 取 值 中 找 出 具有 良好 性 质 (如 对 一 切 9, 偏差 很 小 , 或 具有 满 
意 的 置信 区 间 ) 的 估计 量 . 我 们 首先 关注 与 ( 贝 叶 斯 ) 最 大 后 验 概率 方法 密切 相关 
的 最 大 似 然 估 计 , 它 选择 9 的 估计 使 得 给 定 z 的 似 然 函数 最 大 . 这 种 估计 方法 用 途 
很 广 并 且 有 一 些 很 好 的 性 质 , 特别 是 当 观 测 数目 很 大 的 时 候 . 接着 我 们 讨论 了 特殊 
但 是 在 实际 情况 中 很 重要 的 估计 未 知 均值 并 建立 置信 区 间 . 本 章 中 很 多 方法 都 依 
赖 于 中 心 极限 定理 . 最 后 讨论 的 是 线性 回归 方法 , 它 主要 是 在 最 小 二 乘 意义 下 找到 
与 观测 相 匹配 的 线性 模型 . 虽然 这 种 方法 的 应 用 不 需要 概率 假设 , 但 是 在 某 些 时 候 
仍 和 最 大 似 然 估 计 以 及 贝 叶 斯 最 小 线性 均 方 估计 有 着 密切 的 关系 . 

经 典 假设 检验 方法 的 目标 是 小 的 犯错 概率 以 及 简单 方便 的 计算 . 我 们 首先 研究 
的 是 当 观 测 落 在 拒绝 域 中 时 拒绝 原 假设 的 检验 方法 . 似 然 比 检验 是 简单 假设 检验 
问题 的 基本 方法 , 奈 曼 -皮尔 逊 引 理 给 其 很 强 的 理论 支持 . 我 们 还 讨论 了 显著 性 检 
验 , 其 中 一 个 (或 两 个 ) 假设 是 复杂 的 假设 .主要 方法 包括 适当 选择 提取 观测 信息 
的 统计 量 以 及 拒绝 域 , 使 得 错误 拒绝 的 概率 达到 希望 的 显著 性 水 平 . 

在 对 统计 的 简单 介绍 中 , 我 们 由 在 阐述 核心 概念 和 最 常用 的 方法 , 但 这 还 远 远 
不 够 , 只 是 涉及 这 个 内 容 丰 富 的 学 科 的 一 点 皮毛 而 已 . 很 多 重要 的 话题 我 们 都 没有 
讨论 , 比如 时 间 变 化 的 环境 中 的 估计 (时 间 序列 分 析 和 过 滤 ), 非 参 数 估计 (如 基于 
经 验 数据 来 估计 未 知 的 概率 密度 函数 ), 线性 和 非 线性 回归 的 后 续 发 展 (如 检验 回 
归 模型 的 假设 是 否 正确 ), 统计 实验 的 设计 方法 , 统计 研究 结论 的 证 实 方法 , 计算 方 
法 , 等 等 . 但 是 , 我 们 希望 能 够 通过 本 章 的 知识 激 起 读者 对 这 门 学 科 的 兴趣 并 对 概 
念 框架 有 一 些 基 本 的 认识 . 
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习 题 


9.1 节 经典 参数 估计 


1. 爱丽 丝 将 自己 每 周 做 作业 的 时 间 看 作 随 机 变量 ， 服 从 未 知 参 数 为 9 的 指数 分 布 . 不 同 周 
做 作业 的 时 间 是 相互 独立 的 . 本 学 期 的 前 5 周 她 做 作业 的 时 间 分 别 为 10, 14, 18, 8, 20 
小 时 , 那么 6 的 最 大 似 然 估 计 是 多 少 ? 

2. 考虑 一 列 独立 的 硬币 投掷 试验 , 9 是 每 次 正面 向 上 的 概率 . 

(a) 固定 k, N 是 直到 出 现 第 上 次 正面 向 上 时 投掷 的 总 次 数 . 试 找 出 基于 N 的 9 的 最 
大 似 然 估 计 . 
(b) 固定 n, K 是 ”次 投 搓 中 正面 向 上 的 次 数 . 试 找 出 基于 K 的 9 的 最 大 似 然 估计 . 

3. 抽样 与 和 的 估计 .一 个 盒子 中 有 上 个 球 : 个 白色 和 一 个 红色 的 , 假设 大 和 大 均 已 
知 . 每 个 白 球 上 都 有 一 非 零 数字 , 而 红 球 上 的 数字 都 是 零 . 我 们 想 要 估计 球 上 所 有 数字 的 
和 , 但 是 由 于 上 很 大 , 于 是 用 抽样 的 方法 来 估计 . 此 问题 的 目的 是 量化 从 白 球 ( 非 零 数 字 ) 
中 抽样 以 及 挖掘 对 的 认识 的 好 处 . 特别 地 , 将 比较 抽 ” 个 球 时 的 误差 方差 和 抽 少 一 些 
的 m 个 白 球 时 的 误差 方差 . 

(a) 假设 独立 地 有 放 回 地 抽 球 , 其 分 布 为 均匀 分 布 . 记 X; 为 第 i 个 球 上 的 数字 , Y; 为 第 
i 个 白 球 上 的 数字 . 固定 n 和 mm, 记 


其 中 万 是 开始 的 n 个 球 中 白 球 的 (随机 的 ) 个 数 . 说 明 5$,， 5 和 5 是 所 有 球 上 数 
字 和 的 无 偏 估计 . 
(b) 计算 $ 和 5 的 方差 , 并 说 明 为 了 使 它们 近似 相等 , m 必须 满足 


~ 72DP 
p+r7(1—p)’ 


其 中 p=/k, 7 = E[YY?]/var( 卫 ). 指出 当 m=n 时 ,有 


mm 


var(9) _ 7 
var($) p+"r(l—p) 


(c) 计算 5 的 方差 , 并 说 明 对 于 较 大 的 n 有 


var(S) 1 
var(9) ~ p+r(1—p) 


4. 混合 模型 . 随机 变量 X 的 概率 密度 函数 由 m 个 部 分 组 成 


fx (7) = > pify, (z)， 
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其 中 


mT 


Dp;=1, pi 之 0, j=1,.… ,mMm. 
j=1 


因此 X 可 以 看 作 由 两 步 过 程 产生 的 ; 首先 随机 地 以 概率 p; 抽取 j, 然后 再 从 第 j 个 总 

体 (其 分 布 密度 为 fy,) 随机 抽取 相应 的 Y;. 假设 七 是 正 态 的 , 均值 jj, 方差 o?. 此 外 

还 假设 X1,… ,Xn 是 fx (z) 的 独立 同 分 布 样本 . 

(a) 写 出 似 然 函 数 和 对 数 似 然 函 数 . 

(b) 考虑 m = 2 和 n= 1 的 情形 , 假设 j1,p2,01 和 oa 是 已 知 的 . 试 找 出 pt 和 po 的 
最 大 似 然 估计 . 

(c) 考虑 m = 2 和 n = 1 的 情形 , 假设 pi1, pz,o1 和 ca 是 已 知 的 . 试 找 出 ji 和 各 的 
最 大 似 然 估 计 . 

(d) 考虑 m > 2 和 nn 的 一 般 情况 , 假设 所 有 的 参数 都 未 知 . 说 明 让 ji = zi 以 及 o? 减 
小 到 零 的 时 候 , 似 然 函 数 可 以 任意 大 . 注意 : 这 个 例子 说 明 最 大 似 然 方 法 是 有 问题 
的 


. 设 不 稳定 的 粒子 从 某 个 源 发 出 , 并 在 服从 参数 9 的 指数 分 布 的 距离 X 潭 灭 . 用 一 种 特 


殊 的 装置 测 出 最 前 的 n 次 汉 灭 发 生 在 区 间 [mi, mz]. 假设 这 些 事件 记录 的 距离 为 X = 

(X1,... ,Xn). 

(a) 试 写 出 似 然 以 及 对 数 似 然 函 数 的 形式 . 

(b) 假设 mi = 1, mz = 20,n =6 且 z= (1.5,2,3,4,5,12). 画 出 似 然 函 数 以 及 对 数 似 
然 函数 关于 6 的 图 . 在 你 的 图 中 找 出 近似 的 最 大 似 然 估计 . 


.在 一 项 中 学 生 身高 的 研究 中 , 假设 女生 的 身高 是 均值 jy: 和 方差 o? 的 正 态 分 布 , 男生 的 


身高 是 均值 jz 和 方差 o3 的 正 态 分 布 . 并 假设 抽出 一 名 男生 和 一 名 女生 的 概率 是 相等 的 . 
现 收集 了 样本 数量 为 n = 10 的 样本 , 记录 值 (cm) 如 下 


164, 167, 163, 158, 170, 183, 176, 159, 170, 167. 


(a) 假设 Hl1l, H2, O01 和 O02 是 未 知 的 . 写 出 似 然 函数 . 

(b) 假设 已 知 of = 9 和 ju = 164. 给 出 ca 和 jz 的 最 大 似 然 估计 的 数值 . 

(c) 假设 已 知 of = o2 = 9. 给 出 jr 和 Ha 的 最 大 似 然 估计 的 数值 . 

(d) 将 (c) 中 的 估计 作为 准确 值 , 描述 利用 学 生 身高 来 判断 学 生性 别 的 最 大 后 验 概率 准 
则 . 


， 泊 松 分 布 随机 变量 的 参数 估计 . 利用 独立 同 分 布 泊 松 随机 变量 的 观测 值 X1,…. , X, 推 


导 参 数 的 最 大 似 然 估计 . 这 个 估计 量 是 无 偏 且 相 合 的 吗 ? 


: 均匀 分 布 随机 变量 的 参数 估计 (I). 给 定 [0, 8] 上 均匀 分 布 随机 变量 的 独立 同 分 布 观测 值 


XX1,"… ,Xn. 9 的 最 大 似 然 估计 是 什么 ? 它 是 相合 的 吗 ? 无 偏 还 是 渐 近 无 伪 ? 你 能 构造 一 
个 另 一 个 无 偏 的 估计 量 吗 ? 


.均匀 分 布 随机 变量 的 参数 估计 (IT). 给 定 [9, g + 1] 上 均匀 分 布 随机 变量 的 独立 同 分 布 观 


测 值 X1,… , Xn. 试 找 出 9 的 最 大 似 然 估计 . 它 是 相合 的 吗 ? 无 偏 还 是 渐 近 无 偏 ? 
触动 某 光源 , 它 每 次 将 发 射 随机 数量 K 个 光子 . 假设 KK 的 分 布 列 是 


pK(k;0) = c(0)e ot, k=0,1,2,..., 
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其 中 9 是 温度 的 倒数 , c(0) 是 归 一 化 因子 . 假设 每 次 触动 发 射 的 光子 是 独立 的 . 现在 想 
要 通过 重复 触动 光源 , 记录 发 射 的 光子 数量 来 估计 温度 . 
(a) 确定 规范 化 因子 c(0). 
(b) 找 出 一 次 触动 发 出 光子 数 天 的 期 望 和 方差. 
(c) 根据 ”次 触动 发 出 的 光子 数 Ki,…… , Kn, 推导 温度 y= 1/9 的 最 大 似 然 估计 . 
(d) 证 明 此 最 大 似 然 估计 是 相合 的 . 
充分 统计 量 - 因子 分 解 准则 . 考虑 如 下 观测 模型 . 为 简单 起 见 假设 所 有 的 随机 变量 都 是 
离散 的 , 初始 观测 人 由 分 布 列 pr(t;9) 给 出 . 得 到 观测 工 , 另 一 个 观测 Y 由 不 含 未 知 参 
数 9 的 条 件 分 布 列 pyjz(ylt) 得 到 . 直观 告诉 我 们 在 观测 向 量 X = (7T,Y) 中 只 有 了 工 对 
估计 9 是 有 用 的 . 正 是 这 个 问题 形 充分 统计 量 的 思想 . 

给 定 观 测 X = (Xi，… , Xn), 称 (标量 或 向 量 ) 函数 全 = g(X) 是 9 的 充分 统计 量 ， 
如 果 X 在 给 定 随 机 变量 了 = gq(X) 的 情况 下 的 条 件 分 布 不 依赖 于 9, 也 就 是 任何 事件 D 
和 随机 变量 工 的 可 能 的 取 值 6， 


Pe(X € DIT=#) 


对 所 有 9 是 一 样 的 . 假设 或 者 X 是 离散 的 (在 这 种 情况 下 了 也 离散 ), 或 者 X 和 了 都 

是 连续 型 随机 变量 . 

(a) 证 明 : 了 = g(X) 是 充分 统计 量 当 且 仅 当 满 足下 面 的 因子 分 解 准 则 : 似 然 函数 px (z; 
0)( 离 散 情形 ) 或 fx(z; 9)( 连 续 情 形 ) 可 以 写成 r(g(z),9)s(z) 的 形式 , 其 中 > 和 s 
是 两 个 函数 . 

(b) 证 明 : 如 果 g(X) 是 6 的 充分 统计 量 , 对 9 的 任何 函数 h, g(X) 都 是 参数 5 = h(9) 
的 充分 统计 量 . 

(c) 证明: 如果 g(X) 是 9 的 充分 统计 量 , 9 的 最 大 似 然 估计 可 以 写成 6。= d(e(X))， 
其 中 $$ 是 一 个 函数 . 说 明 : 这 说 明 充分 统计 量 抓 住 了 由 X 提供 的 关于 9 的 所 有 核 
心 信息 . 

解 (a) 只 考虑 离散 情形 , 连续 情形 的 证 明 类 似 . 假设 似 然 函数 可 以 写作 r(g(z),6)s(z). 
我 们 来 说 明 了 = q(X) 是 充分 统计 量 . 

固定 上 考虑 使 得 Po(T =t) > 0 的 9. 对 任何 满足 g(x) 天 二 的 z, 由 条 件 概率 
的 定义 , 立即 可 得 到 Pe(X = z|T =) = 0,V6. 现在 考虑 使 得 g(x) = t 的 z. 利用 
事实 Po(X=z,T=t)= Poe(X=zd(X)=a(z))=Pe(X=2) 有 


_,,_ Pe(X=Z7x,T=t) Poe(X = 727) 
Per 也 元 
_ rr(,0)s(z) os) 
2 {zlq(z)=t} 7(g(z), 0)s(z) 7(t;0) 2 {100s)=t} s(z) 
s(7) 


Dtzla(s)=t} s(2) 


因而 Pe(X = z|T = 如 不 依赖 于 9， 这 说 明 对 于 任意 事件 D, 条 件 概率 Pe(X < 
DIT = 对 所 有 满足 Po(T = t) > 0 的 9 都 一 样 , 因而 T 是 充分 统计 量 . 


12.” 
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反之 , 假设 = q(X) 是 充分 统计 量 . 对 以 任意 满足 px (x;9) > 0 的 zx, 似 然 函 
数 为 < 
px(zig) = Po(X = zlq(X) = gq(z))Poe(q(X) = a(z)). 
由 于 工 是 充分 统计 量 , 右边 第 一 项 不 依赖 与 9, 就 是 s(z) 的 形式 .第 二 项 可 写成 
ea(z) 和 9 的 函数 , 即 可 以 写成 (q(x),9) 的 形式 . 
(b) 这 是 由 充分 统计 量 的 定义 就 可 以 证 明 的 , 因为 对 < 一 h(9) 有 


Pe(X EDIT=t)= PolX € DIT =1), 


所 以 P(X E DIT = tt) 对 所 有 的 ¢ 是 一 样 的 . 

(c) 根据 (a), 似 然 函 数 可 以 分 解 为 r(q(z),90)s(z)， 因 而 最 大 似 然 估 计 在 所 有 6 中 使 
r(q(z),9) 最 大 (车 s(x) > 0) 或 者 在 所 有 9 中 使 r(g(z),9) 最 小 ( 若 s(zZ) < 0), 因 
而 6 只 通过 g(x) 依赖 于 z. 

充分 统计 量 的 例子 (I). 在 以 下 情况 中 证 明 g(X) = 并 X 是 充分 统计 量 

(a) X1,… ,Xn 是 参数 为 6 的 独立 同 分 布 的 伯 努 利 随 机 变量 . 

(b) X1,…. ,Xn 是 参数 为 8 的 独立 同 分 布 的 泊 松 随机 变量 . 

解 (a) 似 然 函数 为 

px(7x;0) = O97) (1 _ 有 ”一 9(2)， 

因而 可 以 将 它 分 解 为 函数 ge(=)(1 -- 9)"-et) 和 常 函数 s(z) = 1 的 乘积 , 前 者 只 通 
过 gq(z) 依赖 于 z. 根据 因子 分 解 准则 得 知 其 为 充分 统计 量 . 

(b) 似 然 函数 为 


n gr 1 
一 6 ~ eo-0pa(7) 

ro 二 (Ti 一 e 一 一 一 e 0 

px (x;0) 于 pe 引 II Zi Li xi! 


因而 可 以 将 它 分 解 为 函数 e694”) 和 函数 s(z) = 1L/IE_izil 的 乘积 , 前 者 只 通过 
ea(z) 依赖 于 z 而 后 者 只 与 x 有 关 . 根据 因子 分 解 准则 得 知 g(x) 为 充分 统计 量 . 
充分 统计 量 的 例子 (ID. X1,.… ,Xn 是 均值 4 和 方差 o? 的 独立 同 分 布 正 态 随机 变量 . 
证 明 : 
(a) 车 o? 已 知 , 则 q(X) = 并?_, Xi 是 的 充分 统计 量 . 
(b) 车 风 已 知 , 则 gq(X) = "(Xi 一 jp)? 是 o? 的 充分 统计 量 . 
(c) 如 果 jy 和 o? 都 未 知 , 则 gq(X) = (并 ”和 并” X?) 是 (pc2) 的 充分 统计 量 . 
解 ”利用 例 9.4 的 计算 和 因子 分 解 准则 . 
拉 奥 一 布莱克 维尔 定理 . 这 个 问题 是 的 要 义 是 : 一 个 一 般 的 估计 量 , 可 以 改进 为 只 依赖 于 
充分 统计 量 的 估计 量 . 设 给 定 观测 X = (Xi … ,Xn), T 二 q(X) 是 参数 9 的 充分 统计 
量 , g(X) 是 9 的 一 个 估计 量 . 
(a) 证 明 Ee[g(X)|T] 对 所 有 9 都 一 样 . 因此 可 以 去 掉 下 标 0, 将 


9(X) = Elg(X)|T] 


看 作 9 的 一 个 新 估计 量 , 它 只 通过 了 依赖 于 X. 
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(b) 证 明 估 计量 g(X) 和 9(X) 的 偏差 相等 . 
(c) 证 明 对 满足 varo(g(X)) < oo 的 0， 


性 
Be[(5(X) — 0)°] < Eel(g(X) — 0)]. 
进一步 地 , 给 定 9, 此 不 等 式 是 严格 的 当 且 仅 当 
Eelvar(g(X)IT)} > 0. 


解 (a) 因为 了 = g(X) 是 充分 统计 量 , 条 件 分 布 Pe(X = zlT = 避 不 依赖 于 6, 因而 
Eelg(X)|7] 也 不 依赖 于 6. 
(b) 利用 条 件 期 望 的 性 质 


Be[g(X)] = Be[Elg(X)IZ]] = Be[B(X)]， 


可 知 9(X) 和 68(X) 的 偏差 相等 . 
(c) 对 固定 对 9, 将 9(X) 和 5(X) 的 偏差 记 为 be. 根据 全 方差 定律 有 


Eel(g(X) — 0)*] =vare(g(X)) + b% 
=Eolvar(g(X)IT)] + vare(Elg(X)IT]) + be 
=Eelvar(g(X)|T)] + vare(O(X)) + 
=Eelvar(g(X)|T)] + Eo[($(X) — 0)°] 
> Eel(§(X) — 0)), 


且 不 等 式 是 严格 的 当 且 仅 当 Eolvar(g(X)|T)] > 0. 

设 Xi ,Xn 是 [0,6] 上 独立 同 分 布 的 均匀 分 布 随机 变量 . 

(a) 证 明 了 = maxi=l…n Xi 是 充分 统计 量 . 

(b) 证 明 9g(X) = (2/n) 5j?_1 Xi 是 9 无 偏 估计 . 

(c) 找 出 估计 量 5(X) = Eolg(X)|T] 的 形式 , 计算 并 比较 Eo[(8(X) 一 0)?] 和 Ee[(g(X) 一 
0)2]. 

解 (a) 似 然 函数 为 


Jr ,Tn;0)= fx (71;0). fx (Tn;0) 
_ 1/0", 若 0 < Maxi=1,... ,n Ti < 0 < 1, 
0， ”否则 ， 
只 通过 g(x) = maxi-1,…,n zi 依赖 于 z. 根据 因子 分 解 准 则 得 知 其 为 充分 统计 量 . 
(b) 有 


n 


Eolg(X)] = 2 5 BolXd = 2 9 0 


i=1 
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(c) 在 事件 {T = 甘 中 , 一 个 观测 X; 等 于 t. 剩 下 的 n 一 1 个 观测 服从 区 闻 [0, 直 上 的 
均匀 分 布 , 条 件 期 望 为 t/2. 这 样 ， 


1 一 1 


因此 5(X) = Elg(X)|T] = (2 十 TDT/n. 
下 面 来 计算 两 个 估计 量 8(X) 和 9(X) 的 均 方 误差 . 为 此 要 计算 5(X) 的 一 阶 
和 矩 和 二 阶 矩 . 有 


Fold(X)] = EolBlg(X)IT)] = Eelg(X)] = 6. 


为 找 二 阶 距 , 首先 确定 了 的 概率 密度 函数 . 对 te [0,9], 有 Pe(T < t) = (#/9)", 微 
分 得 f(t;9) = nt"-1/9". 因此 ， 


polGO0 站 =( 2) Br (ett) {esrls0)at 
0 


由 (XX) 的 均值 是 9, 其 均 方 误差 和 方差 相等 , 且 


人 十 功 ”7 g2 _02 1 2 


n(n+ 2) n(n+2) 
类 似 地 , 9(X) 的 均 方 误差 也 和 其 方差 相等 , 即 


Fe[(5(X) — 0)°] = Eo[(8(X))"] — 6 = 


Eel(g(X) 一 0)5] 一 各 vare(C) 一 性 .7 一 一 一 b. 


可 以 看 出 对 正 整 数 n 有 未 > 二 可 所 以 
Ee[(3(X) — 0)°] < Eol(g(X) -9)3， 
符合 拉 奥 -布莱克 维尔 定理 . 
9.2 节 ”线性 回归 
16. 一 家 电力 公司 想 要 估计 消费 者 日 用 电量 和 夏天 每 日 温度 之 闻 的 关系 . 收集 数据 见 下 表 . 


温度 96 89 81 86 83 
用 电量 23.67 20.45 21.86 23.28 20.71 
温度 73 78 74 76 78 
用 电量 18.21 18.85 20.10 18.48 17.94 


(a) 建立 可 用 来 预测 用 电量 (温度 的 函数 ) 的 线性 回归 模型 并 估计 参数 . 
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(b) 若菜 天 温度 是 90 度 (华氏 度 ), 试 预测 当天 的 用 电量 . 
17. 下 表 给 出 5 个 数据 对 (zi, yi)， 


也 0.798 2.546 5.005 7.261 9.131 


2 一 2.373 20.906 103.544 215.775 333.911 


想 对 zx 和 y 的 关系 建立 模型 . 考虑 线性 模型 
玉 三 b0 十 0 十 Wi 71=1,...,9, 


以 及 二 次 模型 
Y=BotBirtV, i=1,...,5, 
其 中 Wi 和 Vi 是 附加 噪声 项 , 视 为 独立 零 均值 正 态 随机 变量 , 方差 分 别 为 o? 和 o3. 
(a) 找 出 线性 模型 参数 的 最 大 似 然 估 计 . 
(b) 找 出 二 次 模型 参数 的 最 大 似 然 估 计 . 
(c) 假设 这 两 个 模型 为 正确 模型 的 概率 是 一 样 的 , 噪声 项 Wi; 和 Vi 的 方差 也 一 样 : of = 
o2. 用 极 大 后 验 概率 准则 从 两 个 模型 中 做 出 选择 . 
线性 回归 中 的 无 偏 性 和 相合 性 . 考虑 概率 范畴 下 的 回归 , 假设 Y; = bo 十 bzi 十 Wi, i 二 
1,… ,n, 其 中 Wi 是 独立 同 分 布 的 零 均值 正 态 随机 变量 , 方差 为 o?. 给 定 rz; 和 Y; 的 实 
际 值 y, i = 1,.… ,5, go 和 0 的 最 大 似 然 估计 在 9.2 节 中 由 线性 回归 公式 给 出 . 
(a) 证 明 bo 和 9: 的 最 大 似 然 估计 是 无 偏 的 . 
(b) 证 明 估计 量 @o 和 全， 的 方差 分 别 是 


其 


18. 


A 2 72 A 2 
var(B0) = ey var(O1) = Da 
它们 的 协 方差 是 


cov(6o, ©1) = Tp 
t=1\™ 


(c) 证 明 车 交 ” (zi 一 下 2 一 oo 且 3? 在 n 一 oo 时 被 一 个 常数 控制 , 则 有 var(6o) 一 0 
和 var( 人 1) 一 0. ( 据 此 以 及 切 比 雪夫 不 等 式 可 知 , 6o 和 6; 都 是 相合 的 .) 
注意 : 尽管 在 本 题 中 假定 Wi 是 正 态 的 (在 求 最 大 似 然 估计 量 时 要 用 到 Wi 的 分 布 ), 但 
是 后 面 的 论证 说 明 即 使 没有 这 个 假设 , 估计 量 仍然 是 无 偏 且 相 合 的 . 
解 (a) 将 bg 和 0 的 真实 值 分 别 记 为 % 和 97. 已 知 
| Dici (Ti — £)(Y: — 了 ) 6 yy_é 


1 二 ， o=Y— O15, 


Di1 (Ti — 1)2 
其 中 立 = (5 )/n, 并 将 z1,… ,zn 看 作 常 数 . 记 玉 = ("Wi)/n, 则 有 


Y=0+0rt+Wi, Y=0+i+W, 
以 及 
YY-Y=0(x -21)+(W—W). 
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因此 


D(z — 2)(0T (zi — 1£) + Wi — W) 
Di1 (Ti 一 五 
2 (2 一 瑟 T 
> 一 二 2 


这 里 用 到 事实 于 (zi; - 5) = 0. 由 于 EIWi] = 0, 我 们 得 到 


Zi — 2)(Wi — W) 


01= 二 


E[Gi] = 0*. 
同样 由 
Oo = 了 -65= 人 外 十 bi 十 环 -65= 人 站 十 (时 一 昌 ) 元 十 现 ， 
和 事实 EI6i] = 07 以 及 E[W] = 0 得 到 
E[IG@o] = 6. 


现在 来 计算 两 个 估计 量 的 方差 . 利用 (a) 中 推导 关于 61 的 公式 和 Wi 的 独立 性 ， 
有 


(b 


_— 


var(O1) = Di (zi 一直 var(Wi) 0 
9= (2 (一 下 2)2 Di (mi — £2 


类 似 的 用 (a) 中 推导 关于 Bo 的 公式 有 


var(O0) = var(W — O173) = var(W) + £2var(©1) — 2zcov(W, O1). 


由 于 ?1(zi 一 2F) =0 以 及 忆 [WVWi] = o?/n 对 所 有 i 成 立 , 于 是 得 到 


EW (ma)W) TP) 


cov(W, ©1) = F(z 3) Te (vi 2) 


=0. 


结合 最 后 三 个 等 式 , 得 到 


_o 元 202 _ 02 3 (zi — £3)2 + nz? 


CT 


二 项 展开 (xi 一 £)? 得 到 


yo 一 也 2 + nz 一 > z2. 
i=1 i=1 
结合 前 面 两 个 等 式 , 得 到 


a 0 Do 
“00-7 


最 后 来 计算 Go。 和 1 的 协 方差 . 有 


cov(6o,61) = BEI(6o — 0)(O1 — 07)] = E[((0+ ~ 1)z + WW)(O1 — 01), 
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或 者 
cov(O0, O1) = —zvar(O1) + cov(W, ©1). 
由 于 之 前 说 过 cov(W， ©1) 二 0, 最 终 得 到 
cov(O0, ©1) 一 -sr 
(c) 车 并 ” (zi 一 2)? 一 oo, 由 (b) 中 推导 的 表达 式 可 知 var(l) 一 0. 进一步 由 (b) 
中 公式 
var(@o) = var(W) + £2var(©O1), 
以 及 假设 3? 被 一 常数 控制 可 知 var(@o) 一 0. 
19.* 线性 回归 中 的 方差 估计 . 在 和 18 题 相同 的 假设 条 件 下 , 证 明 


$2 = (Yo -Oz) 
i=1 


是 c2 的 无 偏 估计 量 . 
解 令 似 = 7% — @o 一 自 1zi)?. 用 公式 6o = 了 一 BQ1z 和 e@i 的 表达 式 得 到 


= -YY -Oi(r— 2)) 


i=1 


=D0% 7) 20 DY Pes -D+ OD (oD) 


i=1 


=D (7) -6D (a) 


-YY —ny?— 2 Ys, 一 五)2. 


两 边 取 期 望 得 到 
ElV] = > EY?] ~ nl ~ 》 (cs — 5) BIO 
同时 有 
E[Y?] = var(¥i) + (E[Y:])? = 0 + (08 + 120), 
EI?) = var(Y) + (B[P)? = © + (08 + 073)”, 
REI63] = var(©1) + (E[O1))? = i + (01)?. 


2 (Ti 一 互 ) 
结合 4 个 等 式 并 化 简 , 得 到 | 
E[V] = (n ~ 2)o07. 
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9.3 节 ”简单 假设 检验 


20. 


21. 


22. 


23. 


24. 


随机 变量 X 由 正 态 概率 密度 函数 刻画 , 均值 lo = 20, 方差 或 者 是 ci = 16( 假 设 Ho) 或 
者 是 of = 25( 假 设 硬 ). 对 于 这 样 的 一 个 简单 假设 检验 问题 , 我 们 采用 拒绝 域 


R= {zlz1 + z2 + zx3 > 7} 


其 中 ?y 是 待定 的 临界 值 . 设 错误 拒绝 概率 为 0.05, 相应 的 7 等 于 多 少 ? 相应 错误 接受 的 
概率 是 多 少 ? 

已 知 正 态 随机 变量 XX 的 均值 为 60, 标准 差 为 5( 假 设 Ho) 或 8( 假 设 Hi). 

(a) 考虑 用 一 个 简单 样本 zx 来 做 假设 检验 . 拒绝 域 的 形式 为 


R= {zllz —60| > 7}. 


在 错误 拒绝 Ho 的 概率 为 0.1 的 情况 下 确定 y 的 取 值 . 相应 错误 接受 的 概率 是 多 
少 ? 如 果 以 同样 的 错误 拒绝 概率 , 用 似 然 比 检验 会 改变 拒绝 域 吗 ? 
(b) 考虑 用 nn 个 样本 z1,…… ,zn 来 做 假设 检验 . 拒绝 域 的 形式 为 


RR 二 {(z1. ,za 于 二 一 60| > 让 
其 中 7 使 得 错误 拒绝 Ho 概率 为 0.1. 错误 接受 的 概率 随 着 ” 的 改变 如 何 变化 ? 就 
这 种 检验 的 恰当 之 处 做 个 总 结 . 

(c) 用 个 观察 值 z1,… ,zn 来 推导 似 然 比 检验 的 构成 . 

有 两 个 关于 给 定 硬 币 正 面向 上 概率 的 假设 : 9 = 0.5( 假 设 Ho) 和 6 = 0.6( 假 设 Hi1). 设 

XX 是 n 次 投掷 中 正面 朝 上 的 次 数 ， 当 n 足够 大 时 , X 的 分 布 可 以 合理 近似 为 正 态 分 布 . 

对 于 这 样 的 简单 假设 检验 问题 , 若 X 大 于 某 个 合适 的 选择 值 上 则 拒绝 Ho. 

(a) 当 错 误 拒绝 的 概率 小 于 或 等 于 0.05 时 , hk 的 取 值 应 该 是 多 少 ? 

(b) 为 保证 错误 拒绝 和 错误 接受 的 概率 都 不 超过 0.05, n 的 最 小 值 是 多 少 ? 

(c) 当 取 (5b) 中 的 值 , 以 相同 的 错误 拒绝 概率 做 似 然 比 检验 , 此 时 错误 接受 的 概率 是 
多 少 ? 

票务 公司 一 天 内 接 到 电话 的 总 数 服 从 泊 松 分 布 . 平常 日 , 电话 数 的 期 望 值 是 Ao; 城 里 有 

热门 演出 的 一 天 , 电话 数 的 期 望 为 和 1, 且 Xi > Xo. 描述 根据 电话 总 数 判断 城 里 是 否 有 热 

门 演出 的 似 然 比 检验 . 假设 给 定 了 错误 拒绝 的 概率 , 写 出 临界 值 上 的 表达 式 . 

有 一 批 灯 泡 , 其 寿命 为 独立 同 分 布 的 指数 分 布 随机 变量 , 参数 为 Xo( 假 设 五 0) 或 Xi( 假 设 

了 Hi). 对 于 这 个 假设 检验 问题 , 测量 n 个 灯泡 的 寿命 值 . 求 出 相应 的 似 然 比 检验 的 拒绝 域 . 

假设 错误 拒绝 Ho 的 概率 给 定 , 写 出 临界 值 € 的 解析 表达 式 . 


9.4 节 ”显著 性 检验 


25. 


设 X 是 均值 为 p, 方差 为 1 的 正 态 随机 变量 . 现在 想 利用 X 的 ”个 独立 观察 值 , 在 5% 
显著 水 平 下 检验 假设 j= 5. 

(a) 样本 均值 在 什么 范围 内 就 接受 假设 ? 

(b) 令 n= 10. 计算 在 jy 的 真实 值 是 4 的 情况 下 接受 j= 5 的 概率 . 
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26. 


27. 


28. 


29. 


30. 
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从 未 知 均值 4 和 方差 o? 的 正 态 分 布 中 抽取 5 个 独立 观察 值 . 

(a) 若 样 本 值 为 8.47, 10.91, 10.87, 9.46, 10.40, 估计 4 和 o?. 

(b) 利用 (a) 中 的 估计 和 t 分 布 表 , 在 95% 显著 水 平 下 检验 假设 jy = 9. 

两 个 岛 上 生长 了 同一 种 植物 . 假设 植物 在 第 一 个 (或 第 二 个 ) 岛 上 的 寿命 ( 按 天 计算 ) 服 

从 未 知 均值 jx (或 jy) 和 方差 o& = 32( 或 o = 29) 正 态 分 布 . 现在 从 每 个 岛 上 获得 

10 个 独立 观察 值 , 我 们 想 检 验 假设 wx = jy， 相应 样本 均值 是 未 = 181 和 了 = 177. 问 

数据 在 95% 显著 性 水 平 下 支持 假设 吗 ? 

一 家 公司 在 考虑 购买 一 台 制 造 某 种 零件 的 机 器 . 测试 时 , 机 器 制造 的 600 个 零件 中 28 个 

有 缺陷 . 问 数据 是 否 在 95% 显著 水 平 下 支持 假设 “机 器 的 缺陷 率 小 于 3%”? 

设 泊 松 随机 变量 的 5 个 独立 观察 值 为 : 34, 35, 29, 31 和 30. 在 5% 显著 水 平 下 检验 均值 

是 否 等 于 35. 

一 台 监 视 器 周期 性 地 检查 某 个 特定 区 域 , 并 根据 是 否 有 入 侵 者 记录 信号 , X = W 为 没有 

入 侵 者 (此 为 原 假设 Ho), X = 9 十 W 为 存在 入 侵 者 , 其 中 0 非 负 未 知 . 假设 W 是 零 均 

值 、 方差 v = 0.5 的 正 态 随机 变量 . 

(a) 得 到 一 个 观测 值 X = 0.96. 在 5% 显著 水 平 下 是 否 拒绝 Ho? 

(b) 得 到 5 个 观测 值 X = 0.96, 一 0.34, 0.85, 0.51, -0.24. 在 5% 显著 水 平 下 是 和 否 拒绝 
Ho? 

(c) 重复 (b), 用 t 分 布 , 并 假设 方差 v 未 知 . 
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附 ” 表 


几 个 特殊 离散 随机 变量 的 小 结 
在 [a,8] 上 的 均匀 分 布 : 


1 
一 |， 着 k= 二 atl..,b 
| 


0， 其 他 ， 


E[X] = 2, var(X) = 


参数 为 p 的 伯 努 利 分 布 : (刻画 单个 试验 的 成 功 或 失败 ). 


， 着 5=1， 
m0-{ 


eso(es(b™ot1) _ 1) 
(b—a+t+1)(es —1) 


(6— oa)(b— a+2) 
a Mx)= 


1—Dp, 若 kk 二 0， 


E[X]=p, var(X)=p(1—p), Mx(s)=1—p+pe’. 
参数 为 p,n 的 二 项 分 布 : 刻画 n 个 独立 的 伯 努 利 试验 中 的 成 功 数 . 


LA 
px(k) 一 (rn k=0,1,..- CA 


Elz] =np, var(X)=np(1—p), Mx(s)= (1—p+pe’)”. 
参数 为 p 的 几何 分 布 : 刻画 在 一 列 独立 的 伯 努 利 试验 中 直到 出 现 第 一 次 成 功 前 
的 试验 数 
px(k) = (1 — p)*-!y, k=1,2,...， 


1—p pes 
M 二 一 一 一 一 一 . 
Pp *(s) = 了 = (1 —p)es 


参数 为 和 的 泊 松 分 布 : 当 n 很 大 , p 很 小 时 近似 为 二 项 分 布 , 且 有 入 = np. 


入 R 
一 入 
e KL’ 


E[X] = > var(X) = 


k=0,1,...,， 


BEIX] = A， var(X)=M, Mx(s) = exe -0. 
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几 个 特殊 的 连续 随机 变量 的 小 结 
在 [wb 上 的 连续 均 名 分布: 


1 
? 和 a SrTSb 
fx(z) = b—a 
0， 其 他 ， 
Q 十 (5 — oa)? esb _ esa 
E[X] = pu var(X) = Ta Mx(s) = Ba 


参数 为 和 的 指数 分 布 : 


Xe “， 着 z > 0， 1-e Y， 车 z 之 0， 
Fx (7) 
0， 其 他 ， 


1 1 

x var(X) = 一， Mx(x)= ~ 

参数 为 J,o? > 0 的 正 态 分 布 : 

fx (2) = -二 oem/ao， 
270 


EI[X]=p, var(X)=02, Mx(s) = ec 。 /2+ps, 


标准 正 态 分 布 表 


.00 .01 .02 .03. .04 .05 .06 .07 .08 .09 
0.0 5000 5040 .5080 5120 .5160 5199 5239 5279 .5319 .5359 
0.1 5398 5438 5478 .5517 .5557 5596 5636 5675 .5714 5753 
0.2 5793 5832 .5871 .5910 .5948 5987 .6026 6064 6103 6141 
0.3 6179 6217 .6255 6293 .6331 6368 6406 6443 .6480 .6517 
0.4 .6554 .6591 6628 6664 .6700 6736 .6772 .6805 6844 6879 
0.5 .6915 .6950 6985 .7019 .7054 .7088 7123 7157 7190 7224 
0.6 7257 .7291 7324 .7357 .7389 .7422 .7454 .7486 .7517 7549 
0.7 7580 .7611 7642 7673 .7704 .7734 .7764 7794 .7823 .7852 
0.8 .7881 .7910 7939 7967 .7995 .8023 .8051 .8078 8106 8133 
0.9 8159 8186 .8212 .8238 .8264 8289 .8315 .8340 .8365 .8389 
1.0 .8413 8438 .8461 .8485 .8508 .8531 8554 8577 8599 .8621 
1.1 8643 .8665 .8686 .8708 .8729 8749 8770 .8790 .8810 .8830 
1.2 .8849 8869 .8888 .8907 .8925 .8944 .8962 8980 .8997 .9015 
1.3 .9032 9049 .9066 .9082 .9099 9115 .9131 9147 9162 9177 
1.4 9192 9207 .9222 9236 .9251 .9265 9279 9292 .9306 .9319 
1.5 .9332 9345 .9357 9370 .9382 9394 9406 .9418 .9429 .9441 
1.6 .9452 .9463 9474 9484 .9495 9505 .9515 9525 9535 9545 
1.7 9554 9564 9573 9582 .9591 .9599 9608 .9616 .9625 .9633 
1.8 .9641 9649 9656 9664 .9671 9678 9686 .9693 9699 .9706 
1.9 .9713 .9719 9726 9732 .9738 9744 9750 .9756 .9761 9767 
2.0 .9772 9778 9783 9788 .9793 .9798 .9803 .9808 .9812 .9817 
2.1 .9821 .9826 9830 9834 .9838 .9842 .9846 .9850 .9854 9857 
2.2 .9861 9864 9868 9871 .9875 .9878 .9881 .9884 .9887 .9890 
2.3 9893 9896 9898 9901 .9904 .9906 .9909 .9911 .9913 -9916 
2.4 9918 9920 9922 9925 9927 .9929 .9931 .9932 9934 9936 


.00 


.9938 
.9953 
.9965 
.9974 
.9981 
.9987 
.9990 
.9993 
.9995 


.9997 


表 中 的 项 提供 了 @(y) = P(Y < y) 的 值 , 其 中 Y 是 标准 正 态 随 机 变量 , 0 < y < 3.49. 


.01 
.9940 
.9955 
.9966 
.9975 
.9982 
.9987 
.9991 
.9993 
.9995 


.9997 


.02 


.9941 


.9956 


.9967 


.9976 


.9982 


.9987 


.9991 


.9994 


.9995 


.9997 


.03. 


.9943 
.9957 
.9968 
.9977 
.9983 
.9988 
.9991 
.9994 
.9996 


.9997 


.04 
.9945 
.9959 
.9969 
.9977 
.9984 
.9988 
.9992 
.9994 
.9996 


.9997 


.05 
.9946 
.9960 
.9970 
.9978 
.9984 
.9989 
.9992 
.9994 
.9996 


.9997 


.06 


.9948 
.9961 
.9971 
.9979 
.9985 
.9989 
.9992 
.9994 
.9996 


.9997 


标准 正 态 分 布 表 451 


-07 
.9949 
.9962 
.9972 
.9979 
.9985 
.9989 
.9992 
.9995 
.9996 


.9997 


.08 


.9951 


.9963 


.9973 


.9980 


.9986 


.9990 


.9993 


.9995 


.9996 


.9997 


( 续 ) 
.09 
.9952 
.9964 
.9974 
.9981 
.9986 
.9990 
.9993 
.9995 
.9997 


.9998 


